Я попытался реализовать вторичный сорт. поэтому у меня есть вопрос, связанный с этим:Сортировка в каркасе hadoop
Sorting happens 3 times in Hadoop framework
1) Sorting in Buffer (Sorting occur based on key of a map function)
2) Sorting during merging of spill files of mapper output(?????????????)
3) Sorting at Reducer side when reducer gets map output from various mapper based on partition logic again merging happens .(Sorting occur based on Sort Comparator)
если мое выше понимание верно, то на основе какой логики сортировки происходит во время разлива файлов сливающихся на карте выходных файлы, то оно основано на ключах, которые мы используем на карте функции или сортировки, на которой происходит сортировка боковых партий и почему?
В двух словах, сортировка разливы происходит, так что каждый преобразователь будет выводить один объединенный список записей (буфера может быть полным, прежде, чем заканчивает задание на карте). Сортировка со стороны карты происходит, чтобы «облегчить» сортировку рабочей нагрузки редуктора. Все эти фазы сортировки используют один и тот же сортировщик. – vefthym
сортировка по ключевым словам будет использоваться только в первый раз в буфере? – user3484461