2015-04-02 3 views
6

Что быстрее/проще конвертировать в SQL, которые принимают SQL-скрипты в качестве входных данных: Spark SQL, который входит в число уровней скорости для запросов высокой задержки Hive или Phoenix? И если да, то как? Мне нужно сделать много upserts/join/grouping над данными. [hbase]Apache Phoenix vs Hive-Spark

Есть ли альтернатива сверху Cassandra CQL для поддержки вышеупомянутых (объединение/группировка в режиме реального времени)?

Я, скорее всего, привязан к Искры, так как хотел бы воспользоваться MLlib. Но для обработки данных, которые должны быть моим вариантом?

Спасибо, kraster

ответ

1

http://phoenix-hbase.blogspot.com/ Я более уверен, что Phoenix на Hbase будет работать быстрее.

здесь пример запроса и требования к ПК для теста Запрос: выберите счет (1) из таблицы над строками 10M и 100M. Данные - 5 узких столбцов. Количество региональных серверов: 4 (HBase heap: 10 ГБ, процессор: 6 ядер @ 3,3 ГГц Xeon) enter image description here Поскольку Phoenix использует клиентский интерфейс HBASE для загрузки всего запроса и использует механизм запросов только для сопоставления задачи sql для задачи уменьшения карты в HBase

+0

Вопрос о Hive-Spark. В этой диаграмме не упоминается, имеет ли Hive MR или Spark. Кажется, сравнение с Hive MR вместо Spark – sinu

2

у вас есть несколько вариантов (от моего знания)

  1. Apache феникс является хорошим выбором для низкой латентности и среднего размера таблицы (1M - 100M строк, но остерегайтесь таблиц с большим количеством столбцов!) обработка. Отличным плюсом для феникса является то, что его очень легко начать. У моей компании уже установлен кластер HBase (с кеберосом). Чтобы использовать Phoenix, мне понадобился URL HMaster, Hbase-site.xml и keytab для выполнения операции. Очень быстрые чтения и записи являются достойными (для меня это медленнее, потому что мне нужно было делать это динамически, поэтому я был вынужден использовать клиентский API Java вместо массовой загрузки)

  2. Улей с искрами тоже замечательный. Я не уверен, насколько велика производительность над Фениксом. Поскольку Spark делает большинство вещей в памяти, я предполагаю, что это должно быть быстрым. Тем не менее, я могу сказать вам, хотите ли вы подвергнуть SQL-доступ как своего рода API, использование искры становится довольно сложным.

  3. Presto является отличным продуктом, который предлагает искровую как мощность обработки с интерфейсом SQL, что позволяет вам между ПОДКЛЮЧИТЕ данные из многих источников (Hive, Cassandra, MySQL ..etc)

Надеется, что это помогает.

Смежные вопросы