2013-12-22 4 views
0

В настоящее время я создаю RSS-Reader, а на некоторых сайтах есть странные rss-2.0-файлы, которые я должен сначала изменить, чтобы их отобразить.Удалить HTML из String - RSS

Одним из них является seen here:

Проблема заключается в том, что описание тега содержит не только текст описания, но и некоторые

HTML-элементы, такие как <a href ... /><img src ... />

Как я могу удалить все эти ненужную информацию без поиска каждого атрибута?

Есть ли что-то в Java? Или это регулярное выражение полезно в этом случае?

+0

Игнорировать все внутри CDATA <содержание: закодирован><[CDATA [... – mplungjan

+1

хорошо, это было легко: D - если вы создаете ответ я буду отметьте его как разрешено;) – Frame91

+0

Готово :) ........... – mplungjan

ответ

2

Игнорировать все внутри CDATA, такие как

<content:encoded><![CDATA[... 
4

Вы можете использовать это регулярное выражение, чтобы удалить HTML теги:

String noHtml = html.replaceAll("\\<.*?>",""); 

Несмотря на то, что я использовать jsoup для разбора HTML-код в Java.

+0

Для чего первый «\\»? '<>' не являются отдельными, насколько я знаю – HamZa

Смежные вопросы