Я пытаюсь изучить scrapy, и в настоящее время я пытаюсь разобрать веб-сайт bbc.scrapy rules generate single link
Я чувствую, что сделал все хорошо, но правила генерируют только одну ссылку. Вот код:
class BBCSpider(CrawlSpider):
name = "bbc"
allowed_domains = ["http://www.bbc.com"]
start_urls = [
"http://www.bbc.com/news/world",
]
rules = [
Rule(LinkExtractor(allow=r"http://www.bbc.com/news/world-.*"),
callback='parse_item', follow=True)
]
def parse_item(self, response):
print(response)
В настоящее время только одно звено (http://www.bbc.com/news/world-middle-east-33833400) генерируется. Я понятия не имею, почему. Регулярное выражение соответствует еще большему количеству ссылок на странице.
Большое спасибо.
Все еще не работает. Я попробовал кучу ссылок, чтобы увидеть, совпадает ли регулярное выражение с ними, и это так. –
@WebMatrix все в порядке, обновлено. Сейчас работает для меня. – alecxe
безупречный. работает сейчас. –