Hadoop - Правильно сортировать по ключевым и группы по редуктору

У меня есть некоторые данные, поступающие из редуктора которые так:Hadoop - Правильно сортировать по ключевым и группы по редуктору

И я хотел бы, чтобы отсортировать их в соответствии с номером на второй колонке. Как это:

Когда я запускаю свою программу на местном уровне, я использую:

sort -k2,2n

Но я не знаю, как сделать то же самое на Hadoop. Я попробовал несколько вариант, который не работает, например:

-D mapreduce.partition.keycomparator.options=-k2,2n

И кроме того, я хотел бы, что все данные, которые имеют один и тот же ключ, чтобы пойти на тот же редуктор. Так что в этом случае:

2,3 0

6,3 0

должны быть обработаны одним и тем же редуктором.

Любые идеи варианта, который я должен использовать на хаосе?

Спасибо заранее!

источник

2015-10-25 Robin Dupont

В конфигурации по умолчанию задания первые столбцы являются ключами результата редуктора, второе - значением. Для получения результата редуктор обрабатывает все записи с одинаковыми ключами. Поэтому в вашем случае вам нужно выполнить дополнительную работу по созданию карты. Карта поместит второй столбец в качестве ключа и сначала как значение. Это задание будет группировать данные в соответствии с вашим запросом. Но если у вас есть небольшой объем данных в результате, вы устанавливаете только один редуктор на ваше задание -D mapred.reduce.tasks = 1.

источник

2015-10-25 19:08:52

Hadoop - Правильно сортировать по ключевым и группы по редуктору

ответ

Смежные вопросы