2014-12-04 5 views
0

Im пытается получить текст между <a> тегом, но он не хочет работать, но это делает работу для <strong> теговКак извлечь текст между <a> гиперссылка тегом

Код:

Пример с тегом не работает

public static void init() throws SQLException, InstantiationException, IllegalAccessException, ClassNotFoundException, IOException{ 

    Document doc = Jsoup.connect("https://www.google.com.au/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q=example").timeout(20*1000).get(); 
    Elements taglink=doc.select("#rso > div.srg > li:nth-child(1) > div > h3 > a"); 
    StringBuilder sb = new StringBuilder(taglink.text()); 
    System.out.println("Text "+sb); 
} 
+1

Можете ли вы показать нам фрагмент документа. И тот, который работает. – weston

+0

Если он работает для '' сильных'' тегов, он должен работать для '' '' тегов, синтаксический анализатор не имеет значения. Проверьте свой документ на наличие тега '' a'' в качестве соседа '' strong''. EDIT: пожалуйста, покажите нам документ и настоящий код. Строка 1 явно сломана, а селектор - не тот, который вы используете в коде. – f1sh

+0

@weston Эй, парень, это лучше? – HelloWorld

ответ

1
doc = Jsoup.connect("http://google.com").get(); 

Elements links = doc.select("a[href]"); 
    for (Element link : links) { 

     System.out.println("\nlink : " + link.attr("href")); 
     System.out.println("text : " + link.text()); 

}

Вы можете попробовать этот код, чтобы получить всю гиперссылку, а также текст между гиперссылками. Попробуйте это и дайте мне знать, если вы найдете какую-либо дальнейшую проблему.