У меня есть строка, которая может включать в себя br или span .../span теги или другие HTML-символы/сущности. Мне нужен надежный способ снять все это и получить оставшиеся символы UTF-8. В идеале это должно быть кросс-платформенным.C++: удалить все форматирование HTML из строки?
Нечто подобное было бы идеально:
http://snipplr.com/view/15261/python-decode-and-strip-html-entites-to-unicode/
но также удаляет теги.
Отметим, что больше государств требуется, поскольку атрибуты могут содержать «>». – strager
Это правда, поэтому я спросил, насколько строги его требования. A '>' в теге довольно маловероятен, но, безусловно, может произойти. Аналогично, алгоритм должен быть более сложным, если вам приходится иметь дело с потенциально искаженным HTML или выполнять специальные действия для определенных тегов. –
OP утверждает, что «надежный», который, вероятно, означает «работает как человек, ожидал бы, полагая, что он полностью понимает стандарт во всех случаях». Поэтому «>» в атрибуте, вероятно, нужно будет обработать. – strager