2013-09-29 3 views
0

Я хочу, чтобы данные навалом загружались в таблицы mulitple, используя одно задание mapreduce. Поскольку объемы данных высоки, потребовалось бы многократно перебирать два набора данных и загружать их с использованием нескольких заданий. Есть какой-либо способ сделать это ? Заранее спасибо.Массовая загрузка на несколько таблиц HBase в одном задании

ответ

0

Я использую Hbase. Но мне еще не нужна массовая загрузка. Но я столкнулся с этой статьей, которая может вам помочь.

http://hbase.apache.org/book/arch.bulk.load.html

Функция массовой загрузки использует работу MapReduce для вывода данных таблицы во внутреннем формате данных HBase, а затем непосредственно загружает сформированные StoreFiles в кластер работает. Использование массовой загрузки будет использовать меньше ресурсов ЦП и сети, чем просто использование HBase API.

+0

Да, я уже пробовал загрузку по массе с помощью HFileOutFormat. Мне было интересно, можно ли его использовать для загрузки данных в несколько таблиц в одиночном задании? например, используя MultipleOutputs или что-то еще? – InfamousCoconut

Смежные вопросы