2015-12-17 4 views

ответ

1

Непонятно, что вы подразумеваете под экземплярами гусениц. Если вы хотите запустить скрипт обхода несколько раз параллельно, например. у вас есть отличные обходы с отдельными конфигурациями, семенами и т. д. ... тогда они будут соревноваться за слоты в кластере Hadoop. Затем он будет сводиться к тому, сколько слотов карты/редуктора доступно на вашем кластере, что само по себе зависит от количества рабов.

Обработка нескольких сборок Nutch параллельно может стать очень сложной и ресурсной неэффективной. Вместо этого подумайте о своей архитектуре, чтобы все логические сканеры могли работать как один физический или посмотреть на StormCrawler, что должно быть лучше подходит для этого.

Смежные вопросы