2013-07-03 2 views
0

У меня есть узел, как этотКак JSoup DOC текст с кодировкой

<div>&gt; something &lt;</div> 

мне нужно, чтобы получить текст элемента сНа как это

&gt; something &lt; 

Что я получаю от .text() метод, выход

> something < 

В BeautifulSoup, он возвращает &gt; something &lt; не кодированные выходные данные.

Как получить неотвержденный текст из JSoup?

ответ

0
doc = Jsoup.connect(url).get(); 
doc.outputSettings().escapeMode(Entities.EscapeMode.extended); 

ИЛИ

используйте Apache Commons StringEscapeUtils.unescapeHtml4() для этого:

Unescapes a string containing entity escapes to a string containing the actual Unicode characters corresponding to the escapes. Supports HTML 4.0 entities. 
+0

Спасибо за ответ. Из настроек outputSettings как получить текст? Я не мог понять, что с помощью документов. – Rajasankar

+0

вы имеете в виду что-то вроде этого: doc.body(). Html()? – willome

Смежные вопросы