Как запустить apache nutch в распределенном режиме

Я использую Apache Nutch 2.3. У меня небольшой кластер из 4 узлов Hadoop (1.2.1). Я запускаю один экземпляр сканера. Он сканирует около 30k-50k страниц в день. Я должен сканировать больше страниц в день (предполагаемое значение составляет около 1 миллиона). Я пробовал разные вопросы из FAQ Nutch. Но переполненные документы не могли увеличиться. Я думаю, что я должен запустить Nutch в полностью распределенном режиме (я ожидаю, что полный распределенный режим Nutch запускает более одного экземпляра).Как запустить apache nutch в распределенном режиме

Какое решение моей проблемы?

источник

2015-09-24 Shafiq

В целом, следует увеличить значение TopN и установить значение <name>http.content.limit</name> (в Nutch-site.xml) для -1

источник

2016-03-11 20:08:52

Как запустить apache nutch в распределенном режиме

ответ

Смежные вопросы