2012-06-21 1 views
0

У меня есть следующий код:Невозможно получить фактическое содержание HREF тэгов (JPG изображения)

String website = "http://www.somewebsite.com/"; 

Document doc = Jsoup.connect(website).get(); 

Elements aElements = doc.select("a"); 

for (Element element : aElements) 
{ 
    System.out.println(element.attr("href")); 
} 

Когда я вижу выход HREF контента он выглядит следующим образом:

? Nats = MzQ2NDAwLjQuNDYuNDYuMS43MDAxOTQ4LjAuMA & IMG = 1 ? Nats = MzQ2NDAwLjQuNDYuNDYuMS43MDAxOTQ4LjAuMA & IMG = 2 ? Nats = MzQ2NDAwLjQuNDYuNDYuMS43MDAxOTQ4LjAuMA & IMG = 3 ? Nats = MzQ2NDAwLjQuNDYuNDYuMS43MDAxOTQ4LjAuMA & IMG = 4

Когда я иду на веб-страницу с моим браузером (Firefox) HREF содержание выглядит следующим:

.../../../picture1.jpg
... /../../picture2.jpg
.../../../picture3.jpg
.../../../picture4.jpg

Я попытался изменить Переменная «Referer» на имя веб-сайта со следующим кодом:

Document doc = Jsoup.connect(website).header("Referer", "http://www.somewebsite.com/").get(); 

Но это не работает.

Как возможно, чтобы сайт каким-то образом «спрятал» содержимое href из моего «загрузчика» Jsoup, но покажите его, когда я действительно просматриваю свой реальный браузер?

Как я могу обойти его?

ответ

0

решили эту проблему, установив аргумент метода UserAgent:

Document doc2 = Jsoup.connect(website).userAgent("Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)").get(); 
Смежные вопросы