2010-08-04 2 views
3

Я пытаюсь извлечь каждую ссылку href на странице html для оценки w/nokogiri и xpath. То, что я до сих пор, похоже, вытаскивает только заголовки страниц. Меня не интересует название ссылки, а скорее URL, на который указывают.Я пытаюсь извлечь каждую ссылку href на странице html для оценки w/nokogiri и xpath

Вот что у меня есть:

doc = Nokogiri::HTML(open("http://www.cnn.com")) 
doc.xpath('//a').each do |node| 
    puts node.text 
end 

Может кто-нибудь наставит меня о том, как это исправить, так что я потянув фактической HREF вместо самого текста?

ответ

3

Ваш XPATH // a отбрасывает все элементы. Который включает текстовое содержимое. Вы можете использовать @attrname для доступа к атрибутам. Например

//a/@href 

Получит вам HREF каждого а в документе

+0

Он работает, спасибо за очистку, что до !! – paradoxic

Смежные вопросы