У меня есть фрагмент, который может быстро очистить изображения в URL-адресе. Дело в том, что я хочу собирать множество изображений с разных сайтов, и я не могу каждый раз вводить URL-адрес вручную ,Скребок всех URL-адресов страницы
Поскольку я новичок в выскабливании, как вы, ребята, сталкиваетесь с этим? Каков наилучший способ очистить каждый URL? Нужно ли иметь URLS в CSV или что-то в этом роде? Автоматически?
Мой сценарий
URL = 'http://www.sitasde.com'
require 'rubygems'
require 'nokogiri'
require 'open-uri'
require 'uri'
def make_absolute(href, root)
URI.parse(root).merge(URI.parse(href)).to_s
end
Nokogiri::HTML(open(URL)).xpath("//img/@src").each do |src|
uri = make_absolute(src,URL)
File.open(File.basename(uri),'wb'){ |f| f.write(open(uri).read) }
end