2016-09-20 2 views
0

Работы с Hadoop и карты-свертка рамки, я думал, что уменьшить задачи должна быть мелкозернистой так, что различные узлы, которые обрабатывают их можно сделать отдельно.Является ли разнообразие ключей фактором в производительности?

Я думаю, что количество ключей может влиять на гранулярность задач. Итак, - это количество ключей или их разнообразие значительного фактора эффективности?

Например, если бы у меня был только один ключ или два, это было бы проблемой?

+0

всегда зависит от того, что вы хотите сделать, поэтому, пожалуйста, добавьте небольшой пример, чтобы рассказать нам, что проблема, которую вы хотите решить, это то, что вы пробовали до сих пор, и в чем проблема, с которой вы столкнулись с вашим решением. Да, количество ключей важно для эффективности, в общем, но вы не можете использовать одинаковое количество ключей в каждом приложении, независимо от проблемы. – vefthym

ответ

0

Все те же ключи должны заканчиваться на одном и том же редукторе, тогда, если у вас есть только один ключ, вы действительно будете использовать только один редуктор, неважно, если вы установили 10 редукторов. Остальные редукторы не будут иметь никакого выхода (но они будут созданы).

Это большая проблема с именем «перекошенные данные», и вам необходимо переопределить (и перераспределить) ваши ключи, чтобы иметь возможность запускать процесс параллельно.

В идеале данные должны быть распределены в наборах с одинаковым количеством записей, это означает, что все редукторы будут иметь одинаковую нагрузку на работу.

Смежные вопросы