Я новичок в hadoop. Просто закончил читать пример подсчета слов и получил некоторые идеи о том, что делают мапперы и редукторы. Однако то, что я узнал из слов, например, кажется, не относится к моей задаче, вот моя задача:Вычислительная медиана 1-токовой линии с использованием hadoop
Учитывая документ из нескольких строк, например,
привет
привет мир
как вы
Вывести среднее число, сколько слов в каждой строке есть на каждые 1 до линий тока, например,
1,5
Поскольку они медиана {1}, медиана {1,2}, медиана {1,2,3}.
Как я могу это сделать? Заранее спасибо!
Это нелегко распараллеливать, потому что каждый результат линии зависит от всех строк перед ним. Технически вы можете сделать это с помощью MR, но только с использованием одного картографа и без редукторов, хотя это ничего не доказывает. –