Я выполняю довольно большую задачу на моем кластере из 4 узлов. Я читаю около 4 ГБ отфильтрованных данных из одной таблицы и запускаю обучение и прогнозирование Naïve Baye. У меня есть сервер области HBase, работающий на одной машине, которая отделена от искрового кластера, работающего в режиме честного планирования, хотя HDFS работает на всех машинах.Расписание задач с искровым
Выполняя, я испытываю странное распределение задач по количеству активных задач в кластере. Я заметил, что только одна активная задача или не более двух задач выполняется на одной/двух машинах в любой момент времени, а другая сидит без дела. Мое предположение состояло в том, что данные в RDD будут разделены и обработаны на всех узлах для операций, таких как счетчик и отчетливый и т. Д. Почему все узлы не используются для больших задач одного задания? Имеет ли HBase на отдельной машине какое-либо отношение к этому?