царапать только что было добавлено после последнего соскоба

мне нужно сканировать веб-сайт, который в основном содержит ссылки, как это:царапать только что было добавлено после последнего соскоба

www.website.com/link/page_1.html 
www.website.com/link/page_2.html 
www.website.com/link/page_3.html 
...

Царапины содержания происходит непосредственно в базу данных по трубопроводам.

Легко сказать Джанго что-то вроде:

if item exists do not insert it, otherwise insert it

Но есть ли способ, чтобы очистить остальную часть ссылок, которые были добавлены с момента последнего передряги?

Например, после того, как website.com вставляет новые элементы:

/link/page_1.html becomes /link/page_2.html 
new items populate /link/page_1.html

На данный момент, что мне нужно сказать Scrapy просто царапать новые добавленные элементы с вашего последнего передряги?

2012-07-03 marius_5

Последняя репарация поддерживает сериализацию запросов на диск [1], а также интеграцию Redis от Rolando [2].

2012-07-03 22:08:30

чувак ты спас меня! Я прочитал раздел рабочих мест, но, очевидно, недостаточно осторожен! ура –

ответ