2015-04-01 3 views
0

Я пытаюсь оптимизировать производительность ореха для обхода сайтов. Теперь я тестирую производительность на небольшом кластере hadoop, только два узла 32gb RAM, процессор Intel Xeon E3 1245v2 4c/8t. My config for nutch http://pastebin.com/bBRHpFuqОптимизируйте работу ореха на кластере hadoop

Таким образом, проблема: получение заданий не оптимально. В некоторых задачах сокращения есть 4k страниц для извлечения, некоторые 1kk-страницы. Например, см. Снимок экрана https://docs.google.com/file/d/0B98dgNxOqKMvT1doOVVPUU1PNXM/edit Некоторые задачи сокращаются за 10 минут, но одна задача работает 11 часов и продолжает работать, так что это похоже на горло бутылки, когда у меня есть задача сократить 24, но работает только одна.

Может быть, кто-то может дать полезные советы или ссылки, где я могу прочитать о проблеме.

ответ

1

Это была проблема в Найче, она занимает около 50 000 000 с одного сайта и 500 000 из всех остальных. Поэтому, когда он создает очередь с помощью хоста, мы видим одну чрезвычайно большую очередь и другие очень маленькие.

Смежные вопросы