2013-03-25 4 views
0

пытаюсь загрузить HTML-файл, на самом деле это таблица с около 6000 строк, поэтому я написал этот кодjsoup Огромный HTML загрузить

Document _DOM=Jsoup.connect(_EXACT1_URL) 
      .cookies(_COOCKIES) 
      .timeout(70000) 
      .userAgent("Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0") 
      .get(); 

oky, когда я пытаюсь разобрать мой документ (_DOM) и вычислить строки, все, что я получаю, это 1127 строк. . Я пытаюсь записать строку Documet String в файле (page.html), а затем разобрать, я получаю тот же результат, размер файла около (1,2 Мб), когда я использую свой браузер (FIRFOX), чтобы загрузить его реальный размер (6 Мб) я увеличил размер памяти виртуальной машины Java кучи, как этот

java -Xms32m -Xmx500 -jar myJarFile.jar 

, к сожалению, получить тот же результат. я буду очень благодарен за вашу помощь

+0

Jsoup форматирует разобранный HTML, поэтому форматирование может отличаться от одного сайта. Но какова ваша проблема? – ollo

ответ

1

Я считаю, что вам нужно установить maxBodySize(int). По умолчанию установлено значение 1mb.

Для примера

Document _DOM=Jsoup.connect(_EXACT1_URL) 
      .cookies(_COOCKIES) 
      .timeout(70000) 
      .maxBodySize(1024*1024*10) // Size in Bytes - 10 MB 
      .userAgent("Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0") 
      .get(); 
Смежные вопросы