2017-02-01 2 views
-4

Я хочу наскрести какой-нибудь веб-сайт, который содержит разбиение на страницы.Я хочу очистить какой-нибудь сайт, используя рубиновые и механизированные драгоценные камни

, например http://somesite.com/page/

я хочу царапать каждый пост в каждой пагинации.

так, на странице/1, есть около 5 сообщений.

Как очистить каждую информацию внутри каждой разбивки на страницы? до конечной страницы?

Я поиск и исследование, и я нашел 2 подобный вопрос, но им все еще путают его ..

здесь >>

first way

second way

любая идея, как объединить его?

благодаря, прежде чем

+2

[вы можете прочитать этот пост] (http://ruby.bastardsbook.com/chapters/web-crawling/) –

ответ

0

Вы имеют использовать механизировать драгоценные камни? Я настоятельно рекомендую вам использовать Nokogiri. Это очень просто и легко использовать.

У вас может быть петля, которая извлекает страницы и останавливается, когда вы не можете найти страницу.

require 'open-uri' 
require 'nokogiri' 
pages_count = 1 
loop do 
    @html = Nokogiri::HTML(open("somepage.com/#{pages_count}")) 
    ... 
    pages_count = pages_count + 1 
end 
+0

вы можете помочь мне об этом? –

+0

Как я могу вам помочь? –

+0

помогите мне найти решения .. –

Смежные вопросы