Есть ли способ установить allow_domains для start_url? Для каждого URL-адреса в start_urls я хочу ограничить обход домена в этом URL-адресе. После обхода сайта мне понадобится удалить этот домен из allowed_domains. Я предполагаю, что одним из способов было бы динамическое добавление/удаление URL-адресов в allowed_domains?Установите allow_domains на starter_url в scrapy?
Связанные вопрос: Crawl multiple domains with Scrapy without criss-cross
Что ты пробовал? возможно реализовать метод __init __(), который делает это, да. –
Мне нужно, чтобы изменения произошли после того, как каждый start_url с связанными обходами был обработан. Разве __init__ не будет вызван только один раз, когда будет создан spiderclass? Чтобы уточнить, у меня будет несколько start_urls, которые будут переданы из mysql db в один экземпляр spider. – sboss
Есть ли способ использовать текущий start_url в правиле? – sboss