При разработке локально на моей отдельной машине, я считаю, что число редукторов по умолчанию равно 6. В конкретном шаге MR я фактически делю данные на n разделов, где n может быть больше 6. Из что я наблюдал, похоже, что только 6 из этих разделов фактически обрабатываются, потому что я вижу только выход из 6 конкретных разделов. Несколько вопросов:Создание большего количества разделов, чем редукторов
(a) Нужно ли устанавливать количество редукторов больше, чем количество разделов? Если да, могу ли я сделать это до/во время/после запуска Mapper?
(b) Почему другие разделы не находятся в очереди? Есть ли способ подождать, пока редуктор завершит обработку одного раздела, прежде чем работать с другим разделом, чтобы все разделы могли обрабатываться независимо от того, меньше ли количество редукторов, чем количество разделов?
откровение здесь было то, что несколько разделов может быть хешируется же редуктора. – syker