Я начинаю писать скребки для получения данных с разных сайтов. Я построил первый скребок в файле рейка, и теперь я начинаю писать второй файл рейка для получения данных со второго сайта. На данный момент я пишу скребок, специфичный для каждого интересующего меня сайта (не пытающегося создать общий скребок).Rake task for scraping with rails
У меня есть 3 вопроса:
пишет задачи грабли хороший выбор для меня? Есть ли альтернативы, которые я должен рассмотреть?
Как добавить функции/методы в свои файлы рейка? (извините, очень глупые вопросы, но я не могу понять, как структурировать мой код ... так что на данный момент это всего лишь 500 строк непрерывного кода в длинном методе), например, мне нужен «get_description (раздел) ", который возвращает описание со страницы. Метод может отличаться в зависимости от того, какой сайт я соскабливаю.
Как проверить свою задачу с RSpec? Я хотел бы дать ссылку и убедиться, что результаты моих задач соответствуют тому, что я ожидаю получить
Спасибо за вашу помощь!
Отлично, это очень помогает! Кажется, это маршрут, на который я должен следовать ... Только один вопрос: я бы хотел избежать использования моих моделей Scraper в папке «models» моего приложения Rails. Как создать папку для конкретных моделей Scraper (scraper.rb для общих функций, site1.rb для функций, специфичных для site1 и т. Д.), И мои задачи с граблями «видят» это? – alex 2010-12-09 19:25:36