Я получил эту ошибку, первую из рода в течение нескольких дней по-и- не выскабливание:Mechanize получает 403 ошибки, связанный с файлом robots.txt, но robots.txt блокирует ничего
mechanize._response.httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt
Однако роботы .txt сайта гласит:
User-agent: *
Disallow:
Согласно this source, если сайт был закрыт для такого рода доступа, robots.txt будет содержать Disallow: /
.
Неужели ошибка все еще означает, что я должен прекратить выскабливание или что есть еще одна проблема?
Должен ли я пытаться успокоить сервер (например, делать запросы менее частыми) или просто обходить ошибку, добавляя заголовки и т. Д.?
И, наконец, учитывая 403, неэтично ли продолжать соскабливание?
Но сам robots.txt не содержит никаких ограничений. – Tag
Вот почему вы пытаетесь переопределить его один раз (или дважды) и посмотреть, поднимает ли он ошибку 403. Это диагностическая проверка. Если 403 все еще существует после того, как вы обходите файл robots.txt, возможно, они заблокировали ваш IP-адрес. – jarcobi889
Что делать, если я не получу ошибки? (Извините за этот гипотетический разговор, но пока я еще не решил пройти тест.) – Tag