В настоящее время я использую scraw's CrawlSpider для поиска конкретной информации в списке из нескольких start_urls. То, что я хотел бы сделать, это прекратить очищать определенный домен start_url, как только я найду информацию, которую я искал, поэтому она не будет ударять по домену и вместо этого просто попадет в другой start_urls.Динамическое добавление доменов в scrapy crawlspider deny_domains list
Есть ли способ сделать это? Я пытался добавить его к deny_domains так:
deniedDomains = []
...
rules = [Rule(SgmlLinkExtractor(..., deny_domains=(etc), ...)]
...
def parseURL(self, response):
...
self.deniedDomains.append(specificDomain)
не Добавление данных, кажется, остановить сканирование, но если я начну паук с намеченным specificDomain то зайдет в соответствии с просьбой. Поэтому я предполагаю, что вы не можете изменить список deny_domains после запуска паука?