2014-09-07 2 views
0

Я устанавливаю один узел и многострочный (1 мастер и 1 подчиненный) кластер. Когда я пытаюсь запустить свое приложение, он принимает одинаковое время для одного узла и нескольких узлов. В моем приложении я копирую данные из HDFS в локальную файловую систему, а затем выполняю обработку на ней. Это потому, что у меня есть файлы, хранящиеся локально, и файлы недоступны для других узлов в кластере? Я предоставляю файл, который фактически разделен на 3 куска, поэтому логически его следует обрабатывать быстрее на нескольких узлах. Любая идея?Hadoop Single-node vs Multi-node

Спасибо!

ответ

0

Когда я пытаюсь запустить свое приложение, он принимает одинаковое время для обоих, например, одного узла и многоузлового узла.

Хорошо, что разница во времени будет зависеть от типа выполняемой операции и объема нагрузки, создаваемой вашим приложением. Например, копирование нескольких МБ данных займет почти одно и то же время как для одного, так и для многоузлового кластера. Даже кластер с одним узлом может показать хорошие результаты для небольшого набора данных по сравнению с кластером с несколькими узлами. Фактическая мощность Hadoop заключается в обработке колоссальных объемов наборов данных за счет использования многоузловых кластеров для параллельной обработки.

В моем приложении я копирую данные из HDFS в локальную файловую систему , а затем выполняю обработку на нем.

Я не вижу смысла копировать данные в локальной файловой системе для обработки в многоузловой среде. Таким образом вы ограничиваете себя использованием мощности распределенных вычислений.

Смежные вопросы