2016-05-17 6 views
3

Я новичок в обходе и хотел бы узнать, можно ли использовать Scrapy для сканирования сайта, например CNBC.com, поэтапно? Например, если сегодня я сканирую все страницы с сайта, то с завтрашнего дня я хочу только собирать страницы, которые были недавно отправлены на этот сайт, чтобы избежать обхода всех старых страниц.Инкрементально сканировать веб-сайт с помощью Scrapy

Благодарим за любую информацию. или ввод данных.

+0

В целом нет, вам нужно очистить все страницы, чтобы увидеть, что изменилось. Однако вы можете уйти на некоторых сайтах с получением первых X байтов каждого документа (при условии, что сервер поддерживает запросы «Range»), чтобы получить метку времени обновления из тегов meta. – halfer

ответ

0

Короткий ответ: нет.

Более длинный ответ: то, что вы могли бы сделать, это написать идентификатор статьи или URL-адрес статьи в файле, а во время скремблирования вы будете сопоставлять идентификатор или URL-адрес с записями в файле.

Не забывайте загружать свой файл только один раз и присваивать его переменной. Не загружайте его во время итерации при очистке.

+0

Это обычная практика для инкрементального сканирования? Я, хотя это обычная задача для большинства, если не всех, веб-сканеров. В таком случае каждый раз, когда вам приходится повторять посещение всех страниц, которые были посещены ранее. Google также делает это? Это звучит ужасно, учитывая тот факт, что вся сеть настолько огромна. – user697911

+0

Google обычно получает карту сайта от владельца веб-сайта. Что большинство сканеров делают, в основном проходят через все ссылки, которые он находит на сайте. Не имеет значения, если он уже прополз. Если сайт выполнен правильно, на странице статьи будут отображаться фрагменты микроданных (vcard или что-то, что он был вызван) с автором, опубликованной меткой времени, рейтингами и т. Д. Что помогает бот-логу много –

+0

Дедупликация происходит как шаг последующей обработки на эти крупные компании ... Не на уровне гусениц. Вот как они приписывают и наказывают дублированный контент. Они также имеют частоты обновления для каждого URL/домена в зависимости от того, насколько быстро изменения контента на сайтах. Они также не заботятся о файлах Sitemap :-), но они уважают robots.txt. Аннотации хороши, и я думаю, что они могли бы быть продвинуты на некоторое время, чтобы продвинуть отрасль вперед, чтобы повысить качество разметки и проложить путь к более семантическому контенту, но они не являются существенными ни для поиска, ни для идентификации уникального контента. – neverlastn

1

Да, вы можете, и на самом деле это довольно просто. На каждом новостном веб-сайте есть несколько очень важных страниц индекса, таких как домашняя страница и категории (например, политика, развлечения и т. Д.). Нет статьи, которая не проходит через эти страницы в течение как минимум нескольких минут. Сканирование этих страниц каждую минуту или около того и сохранить только ссылки. Затем выполните разницу с тем, что у вас уже есть в ваших базах данных, и несколько раз в день вы можете выполнить сканирование, чтобы очистить все недостающие ссылки. Очень стандартная практика.

Смежные вопросы