Я использую Apache Nutch 2.3. У меня небольшой кластер из 4 узлов Hadoop (1.2.1). Я запускаю один экземпляр сканера. Он сканирует около 30k-50k страниц в день. Я должен сканировать больше страниц в день (предполагаемое значение составляет около 1 миллиона). Я пробовал разные вопросы из FAQ Nutch. Но переполненные документы не могли увеличиться. Я думаю, что я должен запустить Nutch в полностью распределенном режиме (я ожидаю, что полный распределенный режим Nutch запускает более одного экземпляра).Как запустить apache nutch в распределенном режиме
Какое решение моей проблемы?