как перевести этот код hpricot на nokogiri?

Hpricot(html).inner_text.gsub("\r"," ").gsub("\n"," ").split(" ").join(" ") 

hpricot = Hpricot(html) 
hpricot.search("script").remove 
hpricot.search("link").remove 
hpricot.search("meta").remove 
hpricot.search("style").remove

нашел его на http://www.savedmyday.com/2008/04/25/how-to-extract-text-from-html-using-rubyhpricot/как перевести этот код hpricot на nokogiri?

источник

2010-04-16 wefwgeweg

Nokogiri и Hpricot довольно взаимозаменяемыми. То есть Nokogiri (html) является эквивалентом Hpricot (html). Не совсем уверен, что я понимаю, к чему стремится связанная статья, но к:

Извлечь текст из тела HTML, который включает игнорирование больших пробелов между тегами и словами.

Это будет более простой подход в Hpricot и устранить необходимость в разрядах hpricot.search("script").remove. То есть Просто получить тело в первую очередь:

Hpricot(html).search('body').inner_text.gsub("\r"," ").gsub("\n"," ").split(" ").join(" ")

И в Nokogiri:

Nokogiri(html).search('body').inner_text.gsub("\r"," ").gsub("\n"," ").split(" ").join(" ")

источник

2010-04-16 08:51:46 atomicules

как перевести этот код hpricot на nokogiri?

ответ

Смежные вопросы