2013-10-08 2 views
0

У меня есть сценарий, в котором мне нужно запустить два задания для вычисления двух разных корпусов и убедиться, что они записывают каждый n-грамм (и его оценку) в тот же самый редуктор (чтобы в будущем я мог читать данные локально, сравнивать и сравнивать два балла из двух корпусов). Напр. если задание J1 выполняет один из своих редукторов на машине M и пишет n-грамм N на месте, я бы хотел, чтобы работа J2 также записывала n-грамм N на ту же машину M.Запишите выходные данные двух разных заданий Hadoop на один и тот же набор редукторов

Я знаю, как вычислить статистику n-граммов для корпусов (для справки, можно обратиться к this публикации из Google). Я также определил свой пользовательский разделитель (беря хэш на основе первых двух слов в n-грамме). Теперь, как я могу убедиться, что два разных прогона одной и той же программы (на двух разных корпусах) в конечном итоге записывают соответствующий вывод в одни и те же редукторы?

ответ

0

Отъезд MultipleInputs. Указывая два сопоставимых спутника на сопоставимые наборы данных, вы можете избежать запуска ID-карты на комбинированном наборе перед уменьшением.

Смежные вопросы