Для тех, кто знает wget
, у него есть опция --spider
, что позволяет проверить, не сломалась ли ссылка или нет, без фактической загрузки веб-страницы. Я хотел бы сделать то же самое в Python. Моя проблема в том, что у меня есть список из 100'000 ссылок, которые я хочу проверить, максимум один раз в день и, по крайней мере, один раз в неделю. В любом случае это создаст много ненужного трафика.Проверка наличия или отсутствия ссылки на Python без скачивания веб-страницы
Насколько я понимаю из urllib2.urlopen()
documentation, он не загружает страницу, а только метаинформацию. Это верно? Или есть какой-то другой способ сделать это красиво?
Бест,
Troels
Правильно, HEAD доставит вам заголовки (включая статус HTTP), не загружая тело сообщения. Некоторые сайты (неверно) настроены на отправку «не найденных»/404 страниц со статусом 200, хотя было бы трудно обнаружить эти ситуации. – JAL
Насколько я могу судить, это то, что делает wget -spider. –
Большое спасибо за решение, а также за мысли о неверно настроенных сайтах (это стоит помнить!) - вот что мне нужно :) – Troels