Мне нужно реализовать два задания mapReduce, где Mapper в фазе II (Mapper_2) должен иметь выход редуктора в фазе I (редуктор_1).Mapper with multipleInput на кластере Hadoop
Mapper_2 также нуждается в другом вводе, который представляет собой большой текстовый файл (2TB).
Я написал следующее, но мой вопрос: текстовый ввод будет разделен между узлами в кластере, но как быть с выходом редуктора _1, поскольку я хочу, чтобы каждый обработчик в фазе II имел весь вывод Reducer_1.
MultipleInputs.addInputPath(Job, TextInputPath, SomeInputFormat.class, Mapper_2.class);
MultipleInputs.addInputPath(Job, Ruducer_1OutputPath, SomeInputFormat.class, Mapper_2.class);
Спасибо за Ваш ответ, Как я могу получить доступ к данным в distributedCache когда я пишу код Mapper_2? – SNSI