2010-04-16 2 views

ответ

0

Nokogiri и Hpricot довольно взаимозаменяемыми. То есть Nokogiri (html) является эквивалентом Hpricot (html). Не совсем уверен, что я понимаю, к чему стремится связанная статья, но к:

Извлечь текст из тела HTML, который включает игнорирование больших пробелов между тегами и словами.

Это будет более простой подход в Hpricot и устранить необходимость в разрядах hpricot.search("script").remove. То есть Просто получить тело в первую очередь:

Hpricot(html).search('body').inner_text.gsub("\r"," ").gsub("\n"," ").split(" ").join(" ") 

И в Nokogiri:

Nokogiri(html).search('body').inner_text.gsub("\r"," ").gsub("\n"," ").split(" ").join(" ") 
Смежные вопросы