2013-11-13 3 views

ответ

2

Я считаю, что вы можете указать кодировку при создании нечто Jsoup документа, как это:

Document newDocument = Jsoup.parse(htmlString, StringUtils.EMPTY, Parser.htmlParser()); 
newDocument.outputSettings().escapeMode(EscapeMode.base); 
newDocument.outputSettings().charset(CharEncoding.UTF-8); 
+1

EscapeMode.base не работает с óąś, но я установил xhtml :) Спасибо – barwnikk

+1

вам нужно поиграть с этими настройками, так как вы можете пропустить символы управления отображением, например, — (если вам интересно Конечно, о тех :)) –

+1

EscapeMode.base - По умолчанию – barwnikk

2

Это может быть вне темы для контекст вашего вопроса, но если вы не хотите, чтобы просто декодировать HTML-объекты без каких-либо других изменений в строке (без обработки тегов, нет зачистки комментария, и т.д.), вы можете использовать org.jsoup.parser.Parser.unescapeEntities, например:

assert Parser.unescapeEntities("x &asymp; <i>y</i>\n", true) 
    .equals("x ≈ <i>y</i>\n"); 
Смежные вопросы