HBase Mapreduce output to hdfs & HBASe

У меня есть программа mapreduce, которая сначала сканирует таблицу HBase.HBase Mapreduce output to hdfs & HBASe

Я хочу, чтобы выход редуктора проходил в hdfs, а выход редуктора записывался в таблицу hbase. Можно ли настроить редуктор для вывода в два разных местоположения/формата?

источник

2012-03-14 Tucker

Редуктор может быть настроен на использование нескольких файлов для вывода с использованием MulitpleOutputsclass. Документация в верхней части этого класса обеспечивает четкий пример для записи в несколько файлов. Однако, поскольку для записи в HBase нет встроенного в Outputformat, вы можете рассмотреть возможность записи второго потока в определенное место на HDFS, а затем использовать другое задание для вставки его в HBase.

источник

2012-03-16 19:24:22 coltfred

Если вы не хотите писать слишком много кода, просто откройте таблицу в методе настройки компаратора или редуктора и сделайте оператор put в таблицу hbase. С другой стороны, напишите свою работу так, чтобы выходной файл был hdfs-файлом. Таким образом, вы можете писать в hbase и hdfs.

Чтобы быть более сложным, когда вы выполняете context.write(), вы должны писать в файл hdfs, а с другой стороны, table.put может произойти, когда вы делаете put.

Кроме того, не забудьте закрыть стол и все остальное в методе cleanup(). Единственным фоном является то, что, скажем, 1000 карт, ваше табличное соединение будет открываться 1000 раз, но в любой момент времени на самом деле будет работать только максимальное количество ваших карт, поэтому, вероятно, будет 50, в зависимости от вашей настройки. Работает для меня хотя бы!

источник

2012-03-26 18:23:16

я думаю, множественный выход может сделать работу .. CHK тис из http://hadoop.apache.org/mapreduce/docs/r0.21.0/api/org/apache/hadoop/mapreduce/lib/output/MultipleOutputs.html

источник

2012-06-07 12:00:46 najeeb

HBase Mapreduce output to hdfs & HBASe

ответ

Смежные вопросы