Удалить HTML из String - RSS

В настоящее время я создаю RSS-Reader, а на некоторых сайтах есть странные rss-2.0-файлы, которые я должен сначала изменить, чтобы их отобразить.Удалить HTML из String - RSS

Одним из них является seen here:

Проблема заключается в том, что описание тега содержит не только текст описания, но и некоторые

HTML-элементы, такие как <a href ... /><img src ... />

Как я могу удалить все эти ненужную информацию без поиска каждого атрибута?

Есть ли что-то в Java? Или это регулярное выражение полезно в этом случае?

источник

2013-12-22 Frame91

Игнорировать все внутри CDATA <содержание: закодирован><[CDATA [... – mplungjan

хорошо, это было легко: D - если вы создаете ответ я буду отметьте его как разрешено;) – Frame91

Готово :) ........... – mplungjan

Игнорировать все внутри CDATA, такие как

<content:encoded><![CDATA[...

источник

2013-12-22 14:10:28 mplungjan

Вы можете использовать это регулярное выражение, чтобы удалить HTML теги:

String noHtml = html.replaceAll("\\<.*?>","");

Несмотря на то, что я использовать jsoup для разбора HTML-код в Java.

источник

2013-12-22 11:52:14 amatellanes

Для чего первый «\\»? '<>' не являются отдельными, насколько я знаю – HamZa

Удалить HTML из String - RSS

ответ

Смежные вопросы