Я хочу сканировать полезный ресурс (например, фоновое изображение ..) с определенных сайтов. Это не тяжелая работа, особенно с помощью некоторых замечательных проектов, таких как scrapy.Стратегия обновления веб-искателя
Проблема здесь, я не только просто хочу обходить этот сайт ОДИН РАЗ. Я также хочу, чтобы мой обход длился и сканировал обновленный ресурс. Поэтому я хочу знать, есть ли хорошая стратегия для веб-искателя для получения обновленных страниц?
Вот грубый алгоритм, о котором я думал. Я разделил процесс обхода на раунды. Каждый круглый репозиторий URL-адресов будет предоставлять искателю определенное число (например, 10000) URL-адресов для обхода. И затем следующий раунд. Подробные шаги:
- гусеничных добавить начальные адреса в хранилище URL
- гусеничных задать хранилище URL для не более URL N ползать
- гусеничных выборки URL-адрес, и обновить определенную информацию в хранилище URL, как и содержимое страницы, время выборки и изменение содержимого.
- просто вернуться к шагу 2
Для более точного определения, что мне еще нужно решить следующие вопросы: Как решить «обновить-Несс» веб-страницы, которая указывает на вероятность того, что эта сеть страница обновлена?
Поскольку это открытый вопрос, мы надеемся, что здесь будет проведена плодотворная дискуссия.
pdf доступной статьи: http://infolab.stanford.edu/~olston/publications/crawling_survey.pdf –
См. Frontera для реализации этого с помощью Scrapy https://github.com/scrapinghub/frontera –