Я пытаюсь загрузить изображения с этого сайта: http://www.domu.com/chicago/neighborhoods/humboldt-park/1641-n-maplewood-ave-apt-1-chicago-il-60647Scrapy Загрузить изображение 403 Ошибка
Цель сайта в последнее время изменилось, как они поставляют изображения с уникальным URL. Я получаю ошибку 403 при загрузке изображений. Ссылка ниже. Я могу загрузить каждое изображение один раз в браузере. После загрузки изображения один раз последующие запросы создают ошибку 403. Когда я изменяю браузер в частный режим, я могу повторно загрузить изображение несколько раз. Это заставило меня поверить, что они каким-то образом отслеживают файлы cookie. Я попытался отключить куки в scrapy, но по-прежнему получаю ошибку 403. Я также пытался включить файлы cookie, но обрабатывать один запрос за раз. Это также приводит к ошибке 403. Целевой сайт использует сервер лаков для кеша. Я предполагаю, что Varnish включает в себя некоторую технологию защиты от царапин.
Любые мысли о том, как загружать изображения?
определенно разумное решение. Я надеялся избежать селена и выяснить, как его решить с помощью лучевой терапии. Я попытался повернуть IP через прокси-сервер и агент пользователя. Оба не решают проблему. – dfriestedt
Интересно, могу ли я писать файлы непосредственно из ответа в scrapy. – dfriestedt
Я получил ваше мнение, но когда я прочитал, был вопрос 403, первой хорошей идеей был Selenium. Несколько недель назад у меня была аналогичная проблема с сценарием ajax, который загружал изображения на лету. Было бы интересно понять, каким образом именно изображения на этом сайте доставлены – aberna