В настоящее время я занимаюсь проектами в области бизнес-аналитики и больших данных, 2 области, в которых я честен, я новый и очень зеленый.Spark in Business Intelligence
Я планировал построить хранилище данных Hive с помощью MongoDB и подключить его к платформе Business Intelligence, такой как Pentaho. Во время исследования я встретил Spark и заинтересовался его модулем Shark из-за его функциональности в памяти и увеличения производительности при выполнении запросов.
Я знаю, что могу подключить Улей к Пентахо, но мне было интересно, могу ли я использовать вопросы Shark между ними для производительности? Если нет, знает ли кто-нибудь о какой-либо другой платформе BI, которая бы это позволяла?
Как я уже сказал, я довольно новичок в этой области, поэтому не стесняйтесь исправлять меня, так как есть хорошие шансы на то, что у меня возникнут некоторые понятия, сказанные что-то идиотское.
Да, это похоже на то, что я хотел знать. По мнению Hive и Mongodb, я понял, что Hive - это просто программное обеспечение Datawarehousing для запросов, построенных на hadoop, и что сами данные будут на Mongodb. Как в этой статье упоминается http://www.mongodb.com/press/integration-hadoop-and-mongodb-big-data%E2%80%99s-two-most-popular-technologies-gets-significant – user3323032