2016-09-13 3 views
0

Сейчас я извлекая весь текст внутри тега тела (за исключением Разнос как \ г \ п), используя следующий код:Scrapy: Исключить содержимое внутри тегов сценария в теле HTML

full_text = response.xpath('normalize-space(/html/body)').extract() 

Проблема заключается в подбирает javascript внутри тегов скрипта внутри тела.

Знаете ли вы, как я могу исключить контент в тегах скрипта?

Я попытался сделать это, но он не работает:

full_text = response.xpath('normalize-space(/html/body/*[not(self::script)])').extract() 

Любая помощь приветствуется.

ответ

1

вы можете следить за ответ на этот вопрос Scraping text without javascript code using scrapy

from w3lib.html import remove_tags, remove_tags_with_content 

input = hxs.select('//div[@id="content"]').extract() 
output = remove_tags(remove_tags_with_content(input, ('script',))) 
+0

Это делает трюк. ура –

Смежные вопросы