Я использую Scrapy для просмотра и сбора данных, но я обнаружил, что паук сканирует множество нежелательных страниц. Я бы предпочел, чтобы паук делал это только начиная с набора определенных страниц, а затем анализировал контент на этих страницах, а затем заканчивал. Я попытался реализовать правило, подобное приведенному ниже, но оно все равно сканирует целый ряд других страниц. Любые предложения о том, как подойти к этому?Scrapy - только указанные целевые URL
rules = (
Rule(SgmlLinkExtractor(), callback='parse_adlinks', follow=False),
)
Спасибо!
Это пятно на спасибо! В конце я использовал комбинацию явного разрешения и отказа, чтобы правила корректно работали. Спасибо за вашу помощь. – Mike77