Я хочу написать карту-сокращение или несколько, чтобы сравнивать строки друг с другом.hadoop hbase сравнение строк та же таблица
Я не могу понять, как написать это, не делая все в редукторе.
С миллионными рядами это может занять много времени, чтобы сравнить весь набор данных с eachother. как я могу это достичь?
Меня не волнует PIG. Это простой случай, который я продлю (что-то я не могу сделать в PIG)
Я был в восторге, я получу этот ответ :) – Alex