2016-09-23 3 views
0

У меня есть опыт работы только в RDBMS PostgresSQL только Но я новичок в Apache Spark and MongoDB.
Итак, у меня есть следующие недоумения, пожалуйста, меня

Разница между Apache Spark SQL и MongoDB?

1) В чем разница между Apache Spark SQL и MongoDB?
2) Какие места/сценарии/домены мне нужно использовать SparkSQL или MongoDB или в сочетании?
3) Apache Spark заменяет как mondoDB, cassandra ...?
4) У меня есть несколько терабайтов данных в MongoDB, из которых я хочу сделать аналитику данных, а затем необходимо предоставить отчеты.

Так, пожалуйста, поделитесь мне свои знания и дайте мне ваши входы

Regards
Шанкар S

ответ

5

1) Apache Спарк: Apache Spark для выполнения параллельных операций вычисления на больших данных в запросах SQL.

MongoDB: MongoDB является документом магазина и, по существу представляет собой базу данных, так нельзя сравнивать с искровым, который является вычислительный двигатель и не магазин.

2) SparkSQL может быть идеальным для обработки данных структуры импортируемых в Спарк кластере, где у вас есть миллионы доступных для больших вычислений данных. Mongodb может использоваться там, где вам нужны функциональные возможности NoSQL (у него есть полные возможности NoSQL, по сравнению с SparkSQL).

3) Нет Apache Спарк использовать для различных целей, вы не можете заменить его mondoDB, cassandra.It, как вычислительная система, чтобы дать вам предсказать результаты на large data sets

4) использования служба третьей стороны, такая как SLAM DATA http://slamdata.com/ для применения аналитики mongodb также используют Исходный кадр данных для чтения в данных MongoDB

+0

Спасибо, Wasiq Muhammad –

3

Это две разные и широкие вопросы, но я делаю попытку ответить: -

1) Что это разница между Apache Spark SQL и MongoDB?

Spark SQL - это библиотека, предоставляемая Apache Spark для выполнения параллельных вычислений на больших данных в SQL-запросах. MongoDB - это хранилище документов и, по сути, база данных, поэтому его нельзя сравнивать с Spark, который является вычислительной машиной, а не магазином.

2) В каких местах/сценариях/доменах мне нужно использовать SparkSQL или MongoDB или в сочетании?

SparkSQL может быть идеальным для обработки структурных данных, импортированных в Spark Cluster. Mongodb может быть идеальным, где вам нужны функции NoSQL (у него есть полные возможности NoSQL, по сравнению с SparkSQL)

3) Apache Spark заменяет собой как mondoDB, cassandra ...?

Не так, потому что они находятся в разных масштабах. Apache Spark не заменяет, но может быть вызван как преемник Map-reduce для параллельных вычислений на больших datsets.

4) У меня есть несколько терабайтов данных в MongoDB, из которых я хочу сделать аналитику данных, а затем необходимо предоставить отчеты.

Используйте искровой информационный кадр, чтобы читать данные MongoDB с помощью драйвера jdbc, а затем вы можете запускать некоторые SQL-запросы Spark на фреймворке данных, а затем вы можете использовать другие инструменты визуализации, такие как pyplot для создания отчетов.

Thanks,

Charles.

+0

Спасибо Charles. В моем случае у меня есть миллионы записей в кластере MongoDB. Из этих записей я хочу выполнять операции суммирования, подсчета, суммирования, группировки, сортировки. После этого агрегированные данные должны предоставить некоторые инструменты графика. Это общая работа. Так что с ваших входов я понял вот это. 1) Я хочу загрузить данные из кластера mongoDB в Spark Cluster. 2) Затем мне нужно взять данные из Spark Cluster в SparkSQL. 3) Затем, используя SparkSQL, мне нужно выполнять операции группировки, подсчета, суммирования, сортировки. 4) После полных операций агрегации, суммирования и сортировки я должен предоставить эти данные инструментам графика Справа? –