2014-02-18 5 views
-9

В настоящее время я занимаюсь проектами в области бизнес-аналитики и больших данных, 2 области, в которых я честен, я новый и очень зеленый.Spark in Business Intelligence

Я планировал построить хранилище данных Hive с помощью MongoDB и подключить его к платформе Business Intelligence, такой как Pentaho. Во время исследования я встретил Spark и заинтересовался его модулем Shark из-за его функциональности в памяти и увеличения производительности при выполнении запросов.

Я знаю, что могу подключить Улей к Пентахо, но мне было интересно, могу ли я использовать вопросы Shark между ними для производительности? Если нет, знает ли кто-нибудь о какой-либо другой платформе BI, которая бы это позволяла?

Как я уже сказал, я довольно новичок в этой области, поэтому не стесняйтесь исправлять меня, так как есть хорошие шансы на то, что у меня возникнут некоторые понятия, сказанные что-то идиотское.

ответ

0

Я думаю, что вы должны построить Hive Datawarehouse с использованием Hive или MongoDB Datawarehouse с использованием MongoDB. Я не понимал, как вы собираетесь смешивать их, но я все равно попытаюсь ответить на вопрос.

Обычно для инструмента BI вы настраиваете JDBC-драйвер для DB по вашему выбору (например, Hive), а инструмент BI извлекает данные с помощью этого драйвера JDBC. Как драйвер извлекает данные из БД, он полностью прозрачен для инструмента BI.

Таким образом, вы можете использовать Hive, Shark или любую другую БД, которая поставляется с драйвером JDBC.

я могу суммировать ваши варианты так:

улей: самый полный набор функций, и является наиболее совместимым инструментом. Может использоваться по простым данным или вы можете ETL данные в формате ORC, повышающие производительность.

Impala: утверждает, что он быстрее, чем улей, но имеет менее полный набор функций. Может использоваться по сравнению с обычными данными или вы можете ETL данные в формате Parquet, повышающие производительность.

Акула: передний край, не основной. Производительность зависит от того, какой процент ваших данных может поместиться в ОЗУ по вашему кластеру.

+0

Да, это похоже на то, что я хотел знать. По мнению Hive и Mongodb, я понял, что Hive - это просто программное обеспечение Datawarehousing для запросов, построенных на hadoop, и что сами данные будут на Mongodb. Как в этой статье упоминается http://www.mongodb.com/press/integration-hadoop-and-mongodb-big-data%E2%80%99s-two-most-popular-technologies-gets-significant – user3323032

0

Прежде всего, акула поглощается Spark SQL. SparkSQL предоставляет разъем JDBC/ODBC. Это должно позволить вам интегрировать его с большинством существующих платформ.

Смежные вопросы