Для оптимального баланса производительности и распределения рабочей нагрузки каркас определяет количество картографов по количеству входных расщеплений.
Hadoop вики ссылка Apache здесь http://wiki.apache.org/hadoop/HowManyMapsAndReduces идет в деталях -
На самом деле управления количеством карт является тонким. Параметр mapred.map.tasks - это всего лишь подсказка для> InputFormat для количества карт. Поведение InputFormat по умолчанию состоит в том, чтобы разделить общее количество байтов на нужное количество фрагментов. Однако в случае по умолчанию размер блока DFS входных файлов рассматривается как верхняя граница для входных разделов. Нижняя граница размера разделения может быть установлена> через mapred.min.split.size. Таким образом, если вы ожидаете 10TB входных данных и имеете 128MB блоки DFS, вы будете в конечном итоге с картами 82k, если ваши mapred.map.tasks еще больше. В конечном итоге InputFormat> определяет количество карт.