2012-05-09 2 views
0

У меня есть список URL-адресов, и я хочу их загрузить, чтобы создать индекс в формате webtrec. Я нашел полезную структуру под названием MapReduce (Apache Hadoop), но я хотел бы знать, есть ли реализация в Java того, что я хочу сделать. Или может быть ярким примером этого.Есть ли реализация Java индексатора в mapreduce?

Спасибо!

+0

Возможный дубликат [Простая карта Java/Уменьшить рамки] (http://stackoverflow.com/questions/5260212/simple-java-map-reduce-framework) – ant

+0

Возможно, вы захотите посмотреть в Nutch - http: // nutch.apache.org/ –

ответ

1

MapReduce pattern - это шаблон для параллелизуемых вычислений, связанных с CPU, в несколько этапов. Загрузка и обход веб-страниц - это операция привязки ввода-вывода. Следовательно, вы должны различать обе операции.

Поэтому вы должны сначала использовать что-то вроде очереди и асинхронного ввода-вывода для загрузки веб-сайтов, когда производительность действительно важна. На втором этапе вы можете использовать MapReduce для создания фактического индекса.

Hadoop - это одна из возможностей, но если вы не нацелены на большие масштабы, могут быть применены такие рамки, как Fork/Join и akka.

+0

Спасибо за ваш ответ. – synack

Смежные вопросы