2015-11-09 1 views
0

я получаю 1000 URL-адресов из базы данных вместе с 2-х полей, как имя и идентификатор
и мой список выглядитRun SCRAPY паук на основе списка URL-адресов, переданных крестовины через питона скрипт

[{'name':'name1','id':'id1,'link':'myurl1'}, 
{'name':'name2','id':'id2,'link':'myurl2'}, 
{'name':'name3','id':'id3,'link':'myurl3'}, 
... 
{'name':'name1000','id':'id1000,'link':'myurl1000'} 
] 

Теперь я хочу создайте паука, чтобы посмотреть link из приведенного выше списка.
Как передать вышеприведенный список спайдеру, обработать link и вернуть id после обработки.

EDIT: Я не хочу паука, чтобы получить доступ к базе данных

+0

Для обновления значений в базе данных необходим первичный ключ. так что получите это из базы данных тоже. После получения соответствующего результата обновите базу данных. –

ответ

0

Если вы хотите сделать это в уровне паука добавить функцию start_requests. Запросите свой db из функции start_requests и для каждого элемента добавьте запрос и идентификатор прохода в мета

Вы получите идентификатор ссылки из мета с ответом в вашей функции обратного вызова. так что делайте все, что хотите, с ответом и id

, но я рекомендую написать паук для 1-го URL-адреса и после того, как вы развернули свой паук, расставьте свой паук для каждого URL-адреса вашего скрипта. вы можете передать идентификатор ссылки в качестве аргумента, а в конвейере вы можете выполнять операции обхода содержимого.

+0

Я не хочу, чтобы мой паук пробовал из базы данных. Я смотрю, что мой паук должен обрабатываться на основе списка. – Prabhakar

Смежные вопросы