Я новичок в обходе и хотел бы узнать, можно ли использовать Scrapy для сканирования сайта, например CNBC.com, поэтапно? Например, если сегодня я сканирую все страницы с сайта, то с завтрашнего дня я хочу только собирать страницы, которые были недавно отправлены на этот сайт, чтобы избежать обхода всех старых страниц.Инкрементально сканировать веб-сайт с помощью Scrapy
Благодарим за любую информацию. или ввод данных.
В целом нет, вам нужно очистить все страницы, чтобы увидеть, что изменилось. Однако вы можете уйти на некоторых сайтах с получением первых X байтов каждого документа (при условии, что сервер поддерживает запросы «Range»), чтобы получить метку времени обновления из тегов meta. – halfer