2015-07-04 2 views
2

Начну с того, что я довольно новичок в этом, поэтому прошу прощения, если есть простой или очевидный ответ.import.io web crawler with drop downs menus

У меня есть import.io, и он отлично работает, но у меня проблема. Веб-сайт, который я пытаюсь сделать, - http://hockeyanalysis.com/stats/index.php, и, как вы видите, есть несколько выпадающих меню. Меня интересуют две статистики команд, сезон и ситуация.

Я хочу отменить данные за первые 5 лет и все 36 ситуаций каждый год. Да, я знаю, что это всего 180 различных возможностей, и я мог бы сделать это вручную, но я использую это как возможность обучения.

Это пример одного из URL-адресов. http://hockeyanalysis.com/stats/teamstats.php?db=201415&sit=5v5&disp=1

Я знаю, что db = 201415 можно изменить на 201314 и так далее на каждый год, и я также знаю, что sit = 5v5 может быть 5v5home, 5v5road, 5v5close и так далее. Те не следуют тому, что я считаю логическими путями, но я мог просто скопировать и вставить их. Например, я хотел бы иметь db = 201415 и sit = 5v5, 5v5home, 5v5road, а затем изменить db = 201314, 201213, а import.io заполнить сит для остальных. Смысл, я бы тренировал его с 5 примерами и мог бы в оставшихся 4.

Возможно ли это? есть ли альтернативный способ сделать это? Я ценю отзывы.

ответ

2

В этом примере import.io сможет извлечь эти данные для вас, но он не сможет генерировать URL-адреса для вас.

Вам нужно будет использовать экстрактор с функцией массового извлечения. Вот ссылка на базу знаний по этой теме: http://support.import.io/knowledgebase/articles/569499-extractor

URL-адрес может быть легко сгенерирован в Excel или Google Таблицах.

Я создал пример для вас: https://docs.google.com/spreadsheets/d/17oZHwGhMHv7tYQJqaOI2FkJH2OePvyERipPtB8-GGlw/edit#gid=0

+0

Поскольку листы данных те же, я знал, что сбор фактических данных будет простым. Я также знал, что проблема будет в URL-адресе. Я надеялся, что поскольку import.io имеет возможность «узнать», что он мог видеть, что переменные ситуации повторялись для изменения переменной года, так что они заполняют пробелы, так сказать. Однако метод, который вы мне дали, несколько короче копирует и вставляет часть, поэтому спасибо за это. – jon

0

ли вы попробовать с помощью экстрактора или Crawler? Потому что сканеры должны иметь возможность справиться с этим.

Просто используйте дБ = {число} и сидячую = {альфа} как часть URL в Где извлекать данные из? часть настроек Advance Crawler.

Что-то вроде этого:

hockeyanalysis.com/stats/teamstats.php?db={num} & сидячей = {альфа} & дисп = 1 $

Это скажет ваш искатель просто получает данные из URL-адреса, соответствующего шаблону выше.