2012-01-09 3 views
2

Я использую JSoup разобрать страницу gb2312 кодировок: http://vars.sinaapp.com/u/t/jsoup_output_encoding_issue.htmljsoup вопрос вывода кодирования

исходный код:

String testURL="http://vars.sinaapp.com/u/t/jsoup_output_encoding_issue.html"; 
Document doc=Jsoup.connect(testURL).get();   
System.out.println(
    doc.select("div").html() 
); 

это дает следующий результат:

1:? 2:� 3:� 4:— 

Я хочу получить то же самое с исходным кодом страницы:

1:· 2:慒 3:啰 4:— 

Есть ли способ сделать это?

ответ

1

Попробуйте установить doc.outputSettings().escapeMode(EscapeMode.xhtml) или изменения выходного сигнала charset перед печатью.

См. Также (ничтожно) documentation for EscapeMode.

+0

спасибо за помощь, я пробовал другие кодировки, 'EscapeMode.xhtml' и' prettyPrint (false) ', вывод тот же – Koerr

+0

@Zenofo: bummer = (Рассмотрите возможность обновления своего вопроса несколькими вещами, которые у вас есть попробовал, это могло бы улучшить качество других ответов. – maerics

+0

спасибо @maerics, извините за это :) – Koerr

Смежные вопросы