Страница с данными, которые мне нужны, изменила ее структуру на новый разбитый на страницы формат. Я работаю над обновлением моего скребка для страницы.Скремблирование табличных данных с разбивкой по страницам
Я не могу понять, как собирать данные со всех разных страниц.
страница быть зачищена: http://eserver.goutsi.com:8080/DPW230.cgi
Я знаю, как собрать данные в таблицах, но я не могу понять, как справиться с разбиением на страницы.
Это мой оригинальный сценарий:
scrape_actor = Mechanize.new
page = scrape_actor.get("http://loads.goutsi.com:8080/wntv5/BKLoad")
rows = page.body.to_s.split("</tr>")
rows.each do |row|
if row.include? "bgcolor='#f5f5f5'"
columns = row.split("</td>")
i = 0
while i < columns.count
columns[i] = columns[i].gsub(%r{</?[^>]+?>},'').gsub(/[\n\t\r ]+/,'').gsub(" ",'')
i+=1
end
username = "UTSI"
origin = columns[0].gsub(" ","")
pickup = Chronic.parse(columns[1]+"/"+Time.now.strftime("%Y"))
dest = columns[3]
comments = "miles: #{columns[4]}, phone: #{columns[9]}, other: #{columns[11]}"
equipment = columns[6]
ltl = false
ltl = true if columns[7] == "LTL"
Scrape.post_load(username,origin,dest,pickup,'',ltl,equipment,comments,'','','')
end
end