2016-06-01 3 views
0
public class Test { 
    public static void main(String[] args) throws IOException { 
    Document doc = Jsoup.connect("https://bs.to/Game-of-Thrones").get(); 
    Elements link = doc.select("p"); 

    System.out.println(link.text()); 
    } 
} 

Это код, который я использую для получения единственного элемента тэга p данного сайта. Но я получаю текст, который не находится в html-документе. Это, кажется, текст, который принадлежит к общему веб-сайту (он находится на немецком языке, поэтому я не против публикации текста результата).Jsoup возвращает текст, который я не вижу в документе HTML

Кроме того, если я зациклю все элементы p, я получаю больше текста, который не должен находиться в документе, но не текст, который я ищу.

Почему это может быть? Заранее спасибо!

Edit:

Document doc = Jsoup.connect("https://bs.to/andere-serien") 
        .userAgent("Mozilla/5.0 (Windows; U; WindowsNT 5.1; en-US; rv1.8.1.6) Gecko/20070725 Firefox/2.0.0.6") 
        .referrer("http://www.google.com") 
        .get(); 

Добавление UserAgent сделал решить эту проблему, благодаря Шон Патрик Флойд!

+0

Вы уверены, что текст, который вы видите, это не на сайте? Просто потому, что браузер не отображается, это не значит, что текста там нет. – Jagrut

ответ

0

Возможно, они обслуживают разные контенты для различных пользовательских агентов. Попробуйте настроить свой агент пользователя на реальный браузер.

Смотрите этот вопрос для решения:
JSoup UserAgent, how to set it right?

Смежные вопросы