Я пытаюсь оптимизировать производительность ореха для обхода сайтов. Теперь я тестирую производительность на небольшом кластере hadoop, только два узла 32gb RAM, процессор Intel Xeon E3 1245v2 4c/8t. My config for nutch http://pastebin.com/bBRHpFuqОптимизируйте работу ореха на кластере hadoop
Таким образом, проблема: получение заданий не оптимально. В некоторых задачах сокращения есть 4k страниц для извлечения, некоторые 1kk-страницы. Например, см. Снимок экрана https://docs.google.com/file/d/0B98dgNxOqKMvT1doOVVPUU1PNXM/edit Некоторые задачи сокращаются за 10 минут, но одна задача работает 11 часов и продолжает работать, так что это похоже на горло бутылки, когда у меня есть задача сократить 24, но работает только одна.
Может быть, кто-то может дать полезные советы или ссылки, где я могу прочитать о проблеме.