2012-07-03 1 views
1

мне нужно сканировать веб-сайт, который в основном содержит ссылки, как это:царапать только что было добавлено после последнего соскоба

www.website.com/link/page_1.html 
www.website.com/link/page_2.html 
www.website.com/link/page_3.html 
... 

Царапины содержания происходит непосредственно в базу данных по трубопроводам.

Легко сказать Джанго что-то вроде:

if item exists do not insert it, otherwise insert it 

Но есть ли способ, чтобы очистить остальную часть ссылок, которые были добавлены с момента последнего передряги?

Например, после того, как website.com вставляет новые элементы:

/link/page_1.html becomes /link/page_2.html 
new items populate /link/page_1.html 

На данный момент, что мне нужно сказать Scrapy просто царапать новые добавленные элементы с вашего последнего передряги?

ответ

1

Последняя репарация поддерживает сериализацию запросов на диск [1], а также интеграцию Redis от Rolando [2].

+0

чувак ты спас меня! Я прочитал раздел рабочих мест, но, очевидно, недостаточно осторожен! ура –

Смежные вопросы