Как удалить HTML-объекты с помощью Jsoup? Если я использую Element.toString(), я получаю:Как удалить HTML-объекты в Jsoup?
(...)
<td>Letter ó</td> //valid: <td>Letter ó</td>
(...)
Как удалить HTML-объекты с помощью Jsoup? Если я использую Element.toString(), я получаю:Как удалить HTML-объекты в Jsoup?
(...)
<td>Letter ó</td> //valid: <td>Letter ó</td>
(...)
Я считаю, что вы можете указать кодировку при создании нечто Jsoup документа, как это:
Document newDocument = Jsoup.parse(htmlString, StringUtils.EMPTY, Parser.htmlParser());
newDocument.outputSettings().escapeMode(EscapeMode.base);
newDocument.outputSettings().charset(CharEncoding.UTF-8);
Это может быть вне темы для контекст вашего вопроса, но если вы не хотите, чтобы просто декодировать HTML-объекты без каких-либо других изменений в строке (без обработки тегов, нет зачистки комментария, и т.д.), вы можете использовать org.jsoup.parser.Parser.unescapeEntities
, например:
assert Parser.unescapeEntities("x ≈ <i>y</i>\n", true)
.equals("x ≈ <i>y</i>\n");
но я хочу получить текст «Письмо ó "in toString() – barwnikk