Предположим, что ваш размер данных невелик, тогда вам не нужно столько карт, работающих для обработки входных файлов параллельно.
Однако, если <key,value>
пара, порожденные картографами большие & разнообразны, то это имеет смысл, чтобы иметь больше восстановителей, потому что вы можете обработать большее количество <key,value>
пара параллельно.
Давайте рассмотрим случай, когда выход вашего картографа имеет 10 ключей, с 100 значениями, связанными с каждой клавишей, поэтому, если у вас есть 10 редукторов, вы можете обрабатывать все ключи параллельно.
Теперь предположим, что ваши карты выдают 100 ключей с 10 значениями в каждой клавише. Затем 100 редукторов будут обрабатывать все ваши ключи параллельно. (Конечно, будут расходы на сеть, связанные с одновременным запуском 100 редукторов)
Таким образом, исходя из типа данных, которые выводят ваши картографы, вы можете выбрать оптимальное количество редукторов.
Хороший пример @Chaos. – Tariq
@Tarq спасибо! – Chaos