Scrapy: Исключить содержимое внутри тегов сценария в теле HTML

Сейчас я извлекая весь текст внутри тега тела (за исключением Разнос как \ г \ п), используя следующий код:Scrapy: Исключить содержимое внутри тегов сценария в теле HTML

full_text = response.xpath('normalize-space(/html/body)').extract()

Проблема заключается в подбирает javascript внутри тегов скрипта внутри тела.

Знаете ли вы, как я могу исключить контент в тегах скрипта?

Я попытался сделать это, но он не работает:

full_text = response.xpath('normalize-space(/html/body/*[not(self::script)])').extract()

Любая помощь приветствуется.

источник

2016-09-13 Tom Brock

вы можете следить за ответ на этот вопрос Scraping text without javascript code using scrapy

from w3lib.html import remove_tags, remove_tags_with_content 

input = hxs.select('//div[@id="content"]').extract() 
output = remove_tags(remove_tags_with_content(input, ('script',)))

источник

2016-09-13 18:44:22 MrPandav

Это делает трюк. ура –

Scrapy: Исключить содержимое внутри тегов сценария в теле HTML

ответ

Смежные вопросы