Это мой custom_filters.py файл:Игнорировать уже посещенные адреса в Scrapy
from scrapy.dupefilter import RFPDupeFilter
class SeenURLFilter(RFPDupeFilter):
def __init__(self, path=None):
self.urls_seen = set()
RFPDupeFilter.__init__(self, path)
def request_seen(self, request):
if request.url in self.urls_seen:
return True
else:
self.urls_seen.add(request.url)
Добавлена строка:
DUPEFILTER_CLASS = 'crawl_website.custom_filters.SeenURLFilter'
в settings.py
Когда я проверяю файл CSV сгенерированный он показывает один URL-адрес много раз. Это неправильно?
Вы можете добавить строки журнала в вашем DupeFilter 'метода request_seen', чтобы понять, что происходит на –