Я пытаюсь разобрать веб-сайты с JSOUP на Android, чтобы извлечь все изображения, хранящиеся в HTML. Проблема, с которой я столкнулся, заключается в том, что некоторые веб-сайты просят вас явно принять использование файлов cookie, прежде чем вы сможете продолжить просмотр. При анализе HTML этих веб-сайтов я получаю только HTML-код окна, который просит вас принять cookie, но поскольку я делаю это из кода, я понятия не имею, как принять cookie или как его обойти.Как использовать программные файлы cookie?
это даже возможно?
Например, сайт http://tweakers.net. Когда я разобрать его со следующим:
try {
//Connect to the website and get the html
Document doc = Jsoup.connect(uri).get();
//Get all elements with img tag ,
Elements img = doc.getElementsByTag("img");
for (Element el : img) {
//for each element get the srs url
String src = el.absUrl("src");
logger.e("image found: " + src);
//getImages(src);
}
} catch (IOException ex) {
System.err.println("There was an error");
logger.e(ex.getMessage());
}
Единственный выход я получаю это:
image found: http://tweakimg.net/g/cookies/logo-50x50.png
который является изображение на маленьком окно с предложением принять использование куки
Так мой вопрос: есть ли возможность проанализировать реальный сайт даже с этим файлом cookie и как это сделать? Если возможно, я хотел бы знать, что можно использовать unisersal для применения ко всем возможным веб-сайтам. Потому что, насколько я видел, большинство сообщений о обработке файлов cookie относятся к конкретным веб-сайтам, и они включают создание файла cookie, который запрашивает веб-сайт, но это будет большой проблемой, поскольку разные веб-сайты реализуют свои файлы cookie разными способами.
USE CASE: Этот процесс начинается, когда пользователь просматривает веб-сайт на своем телефоне, а затем нажимает кнопку совместного доступа. Намерение начинает мое приложение, я получаю URL-адрес находящегося на совместном веб-сайте, и я разбираю его с помощью jsoup.
Почему бы не использовать веб-браузер в фоновом режиме? Он может помочь вам использовать файлы cookie –
@ Kilanny hmmm ,, так что открытие веб-представления в фоновом режиме может решить проблему? Я определенно мог бы попробовать это! – CantThinkOfAnything
@ Kilanny, если только взаимодействие OP с сайтом осуществляется через JSoup, как будет открываться браузер? –