2012-02-19 2 views
1

Я знаю, что вы можете подумать, что этот вопрос глуп, но мне нужно использовать HtmlUnit. Тем не менее, он возвращает страницу либо как XML, либо как текст.Как получить HTML-страницу с помощью HtmlUnit

Я не знаю, как получить чистый HTML (так же, как исходный код, который возвращать браузеры)

мне это нужно, потому что мне нужно использовать некоторые письменные модули. Есть идеи?

+0

mr. Вай спрашивает, можете ли вы «предоставить полный код, который извлекает веб-страницу с помощью HTMLUNIT» –

+0

У меня проблема с сохранением, может ли помочь мне? http://stackoverflow.com/questions/20781322/java-program-to-read-a-html-page-and-save-its-content-use-javascript – user3136059

ответ

12

Вы можете использовать следующий фрагмент кода, чтобы достичь своей цели:

WebClient webClient = new WebClient(); 
Page page = webClient.getPage("http://example.com"); 
WebResponse response = page.getWebResponse(); 
String content = response.getContentAsString(); 

См javadocs of the WebResponse.html#getContentAsString() method.

+1

Спасибо! :) Я нашел его перед просмотром вашего комментария! –

+1

, но есть проблема, он не показывает тексты в тегах ! –

+1

webClient.getOptions(). SetJavaScriptEnabled (true) - Добавить это –

Смежные вопросы