2013-10-09 3 views
2

Мы создали таблицы в HBase, и эти таблицы сопоставляются с Hive с помощью HBase Storage Handler. Если в таблицах есть огромные записи, скажем 100Millions, и если нам нужно присоединиться к двум таблицам на основе некоторого столбца, и если эти столбцы не являются столбцом идентификатора строки строки, как будет производительность, есть ли способ увеличить производительность в таблице объединяются таблицы Hive, сопоставленные с HBase.Соединения на таблицах Hive, сопоставленных с HBase

С уважением, GHK.

ответ

1

Не имеет значения, какое основное хранилище вы используете для работы Hive JOIN. Таким образом, HBase rowkey не помогает вам с Hive.

Один трюк, который вы можете использовать, - mapjoin, который работает очень хорошо, если вы присоединяетесь к маленькому столику с огромным.

Вы можете прочитать больше о Улом РЕГИСТРИРУЙТЕСЬ производительность по этой ссылке https://www.facebook.com/notes/facebook-engineering/join-optimization-in-apache-hive/470667928919

+0

Я получил его, но в улье есть разделы, которые хорошо помогают нам ограничить количество записей для операции соединения, если у нас есть улое отображение таблицы HBase, тогда есть способ, которым мы достигаем более быстрого ответа в соединениях таблицы. – GHK

+0

Я думаю, что в настоящее время это невозможно с обработчиком хранения HBase. Ознакомьтесь с этой JIRA, которая об этом https://issues.apache.org/jira/browse/HIVE-1223 –

Смежные вопросы