Я использую scrapy для сканирования 1000 URL-адресов и хранения скребкового предмета в mongodb. Я бы знал, сколько элементов найдено для каждого URL-адреса. Из статистики scrapy я могу видеть 'item_scraped_count': 3500
Однако мне нужно, чтобы этот счет для каждого start_url отдельно. Существует также referer
поля для каждого элемента, который я мог бы использовать для подсчета Каждого URL элементов вручную:Сколько предметов было очищено на start_url
2016-05-24 15:15:10 [scrapy] DEBUG: Crawled (200) <GET https://www.youtube.com/watch?v=6w-_ucPV674> (referer: https://www.youtube.com/results?q=billys&sp=EgQIAhAB)
Но мне интересно, если есть встроенная поддержка от Scrapy.
Возможно, вы могли бы создать список или словарь, который увеличивает каждый индекс или значение каждый раз, когда он удаляет содержимое для определенной ссылки? Я никогда раньше не использовал scrapy, но это похоже на быстрое решение вашей проблемы. – freddiev4
Не могли бы вы показать своего паука и ожидаемый результат? Благодарю. – alecxe
@ FreddieV4 спасибо, это будет ручной подсчет реферирования, но я предпочитаю делать это в одной партии в конце обхода. – PHA