0
У меня есть ряд текстовых записей, которые я пытаюсь очистить от HTML и XML. Я использую Java Apache Commons StringEscapeUtils и в целом они работают вещи достаточно хорошо, если они используются на строки s, как:Удаление HTML и XML из текста
s = unescapeHtml(s);
s = unescapeXml(s);
Но если у меня есть что-то вроде этого:
This is text. So is this. <img alt="" height="0" width="0" border="0"style="display:none"
src="http://segment-pixel.invitemedia.com/pixel?code=TechBiz
&partnerID=167&key=segment"/><img alt="" height="0" width="0" border="0" style="display:none" src="http://pixel.quantserve.com/pixel/p-8bUhLiluj0fAw.gif?labels=pub.28834.rss.TechBiz
.7020,cat.TechBiz.rss"/>
Апач Utils не имеют эффект.
Может ли кто-нибудь предложить альтернативный подход?
Спасибо. Я попробую это. Java Swing также имеет javax.swing.text.html.parser. *; который работает. –