2010-12-06 2 views
3

Мне нужно написать сканер, чтобы извлекать информацию из нескольких предварительно отобранных сайтов.Запуск веб-искателя для выбранных сайтов в Google App Engine?

Я знаю, что это просто работа, но я думаю об использовании движка Google для этого.

Может быть, я могу попробовать Nutch сделать это для меня.

Насколько это возможно, это делается?

1) хостинг гусеничного шага по инфраструктуре google 2) Nutch + приложение движок - это будет возможно?

ответ

4

Просто поглядывая по nutch docs, я вижу, комментарии, как «[T] его является вторым выпуском Nutch полностью основан на базовой платформе Hadoop» , которые заставляют меня подозревать, что это не будет работать на App Engine. Приложения App Engine работают в песочнице Python или Java.

Таким образом, вы должны иметь возможность установить базовый гусеничный механизм на App Egnine. Основная реализация, вероятно, связана с запуском tasks, который использует urlfetch для захвата страниц, а затем, при необходимости, вставляет дополнительные задачи для обработки ссылок, на которые ссылается документ. Вы можете отключить сканирование с помощью scheduled tasks.

+1

он, по сути, писал бы искателя с нуля, не так ли? – simpatico 2011-03-05 21:58:44