2015-02-25 3 views
0

У меня есть прецедент, в котором у нас есть большой объем данных, по которым аналитику нужно выполнить. Данные будут непрерывно отобраны и аналитичны для выполнения во время выполнения. Для этого варианта использования, который будет лучше всего использовать, Hbase + hive или HDFS + hive. Насколько я читал, я обнаружил, что в течение времени выполнения изменений лучше всего использовать Hbase. Нуждалось в некоторых предложениях и советах. Пожалуйста, не стесняйтесь предоставлять свои материалы.Hbase или hdfs, которые будут лучше

Если у вас есть такой случай использования, вы можете привести пример, это будет здорово. Заранее спасибо

+0

Верно, что в общем случае HBase может давать лучшую задержку, чем Hive + MR. Однако многое также должно зависеть от особенностей вашего варианта использования. Например, нужно ли аналитике выполнять реляционные объединения между большими наборами отдельных данных? Этот вариант использования не совсем подходит для HBase. – rchang

ответ

0

Основываясь на моем опыте, он часто сводится к выбору между Hbase и Hive. Hbase хорошо подходит для случаев использования запросов в реальном времени для быстро изменяющихся данных (сообщения чата) и Hive для случаев использования, когда аналитика (часто использующая SQL) должна выполняться над данными, которые агрегированы в течение длительного периода времени (веб-сайт аналитика).

Смежные вопросы