2010-08-19 6 views
4

Я хочу проанализировать HTML-файл с помощью Nokogiri. Я могу это сделать, но мне нужен только текст, а не CDATA или JavaScript, поскольку мои сценарии и теги div находятся по всему файлу.Как фильтровать CDATA и получать текст из HTML?

+3

Может вам показать пример данных, которые у вас есть, и данные, которые вы хотите получить, используя Nokogiri? –

ответ

0

Вы можете удалить все элементы сценария,

doc.search('script').remove 

..., а затем выбрать все текстовые элементы

doc.xpath('//text()') 

... или просто выбрать текстовые элементы в Div элементов

doc.xpath('//div//text()') 
Смежные вопросы