2015-09-17 6 views
0

Здесь, в этом коде, я хотел разобрать весь html-файл (локальный) в переменной документа, но я заметил, что он обрабатывает только 10% содержимого. Пожалуйста помоги!!Невозможно разобрать полную html-страницу в документе

Document doc=null; 
HashSet<String>urlSet=null; 
try { 
    doc = Jsoup.parse(file,null); 
} catch (IOException e) { 
    e.printStackTrace(); 
    return urlSet; 
} 

urlSet=getLinks(doc); 
if(urlSet!=null) 
    urlSet=refineURLs(urlSet); 
return urlSet; 
+0

Насколько велик '' '' '' '' 'Строка в байте? – luksch

+1

html размер файла, если 100kb. Он загружается по этой ссылке https://en.wikipedia.org/wiki/Developmental_biology и сохраняется как html-файл. – uniquephase

ответ

0

Я думаю, что это связано с относительными ссылками в html. Используйте это вместо:

String html = readFile(file.getAbsolutePath(), Charset.defaultCharset()); 
doc = Jsoup.parse(html, "https://en.wikipedia.org/wiki/Developmental_biology"); 

private static String readFile(String path, Charset encoding) throws IOException { 
    byte[] encoded = Files.readAllBytes(Paths.get(path)); 
    return new String(encoded, encoding); 
} 
+1

Вы хотите, чтобы я создал метод «readFile()»? можете ли вы продумать эту функцию? – uniquephase

Смежные вопросы