2013-10-10 4 views
0

У меня есть ряд текстовых записей, которые я пытаюсь очистить от HTML и XML. Я использую Java Apache Commons StringEscapeUtils и в целом они работают вещи достаточно хорошо, если они используются на строки s, как:Удаление HTML и XML из текста

s = unescapeHtml(s); 
s = unescapeXml(s); 

Но если у меня есть что-то вроде этого:

This is text. So is this. <img alt="" height="0" width="0" border="0"style="display:none" 
src="http://segment-pixel.invitemedia.com/pixel?code=TechBiz 
    &partnerID=167&key=segment"/><img alt="" height="0" width="0" border="0" style="display:none" src="http://pixel.quantserve.com/pixel/p-8bUhLiluj0fAw.gif?labels=pub.28834.rss.TechBiz 
    .7020,cat.TechBiz.rss"/> 

Апач Utils не имеют эффект.

Может ли кто-нибудь предложить альтернативный подход?

ответ

2

Вы можете попробовать использовать Jsoup:

String text = Jsoup.parse(html).text(); 

Что будет сдирать все HTML.

+0

Спасибо. Я попробую это. Java Swing также имеет javax.swing.text.html.parser. *; который работает. –

Смежные вопросы