мне нужно сканировать веб-сайт, который в основном содержит ссылки, как это:царапать только что было добавлено после последнего соскоба
www.website.com/link/page_1.html
www.website.com/link/page_2.html
www.website.com/link/page_3.html
...
Царапины содержания происходит непосредственно в базу данных по трубопроводам.
Легко сказать Джанго что-то вроде:
if item exists do not insert it, otherwise insert it
Но есть ли способ, чтобы очистить остальную часть ссылок, которые были добавлены с момента последнего передряги?
Например, после того, как website.com вставляет новые элементы:
/link/page_1.html becomes /link/page_2.html
new items populate /link/page_1.html
На данный момент, что мне нужно сказать Scrapy просто царапать новые добавленные элементы с вашего последнего передряги?
чувак ты спас меня! Я прочитал раздел рабочих мест, но, очевидно, недостаточно осторожен! ура –