0
Сейчас я извлекая весь текст внутри тега тела (за исключением Разнос как \ г \ п), используя следующий код:Scrapy: Исключить содержимое внутри тегов сценария в теле HTML
full_text = response.xpath('normalize-space(/html/body)').extract()
Проблема заключается в подбирает javascript внутри тегов скрипта внутри тела.
Знаете ли вы, как я могу исключить контент в тегах скрипта?
Я попытался сделать это, но он не работает:
full_text = response.xpath('normalize-space(/html/body/*[not(self::script)])').extract()
Любая помощь приветствуется.
Это делает трюк. ура –