Spark to MongoDB через Mesos

Я пытаюсь подключить Apache Spark к MongoDB, используя Mesos. Вот моя архитектура: -Spark to MongoDB через Mesos

MongoDB: MongoDB Cluster of 2 shards, 1 config server и 1 сервер запросов. Mesos: 1 Mesos Master, 4 Mesos slaves

Теперь я установил Spark только на один узел. Об этом там мало информации. Я просто хотел задать несколько вопросов:

Как я понимаю, я могу подключить Spark к MongoDB через mesos. Другими словами, я в конечном итоге использую MongoDB в качестве уровня хранения. Мне действительно нужен Hadoop? Обязательно ли вытащить все данные в Hadoop только для Spark, чтобы прочитать его?

Вот почему я спрашиваю об этом. Установка Spark предполагает, что будет задана переменная HADOOP_HOME. Это кажется очень плотным соединением !! Большинство сообщений в сети говорят о разъеме MongoDB-Hadoop. Это не имеет смысла, если вы заставляете меня переводить все на хаоп.

Есть ли у кого-нибудь ответ?

Привет Марио

источник

2016-08-17 Mario

сама Спарк принимает зависимость от Hadoop и данных в HDFS может быть использован в качестве источника данных.

Однако, если вы используете Mongo Spark Connector, вы можете использовать MongoDB в качестве источника данных для Spark, не пройдя через Hadoop вообще.

источник

2016-08-23 11:00:14 Ross

Спасибо Росс. Однако, как упоминалось выше Youe, Spark ожидает, что переменная HADOOP_HOME будет установлена во время установки! Это ясно указывает на то, что он привязан к бедрам с Hadoop, независимо от того, что они говорят о том, что Spark является независимым. – Mario

Spark-mongo connector - хорошая идея, кроме того, если вы выполняете Spark в кластере hadoop, вам нужно установить HADOOP_HOME.

Проверьте requeriments и проверить его (tutorial)

Basic working knowledge of MongoDB and Apache Spark. Refer to the MongoDB documentation and Spark documentation. 
Running MongoDB instance (version 2.6 or later). 
Spark 1.6.x. 
Scala 2.10.x if using the mongo-spark-connector_2.10 package 
Scala 2.11.x if using the mongo-spark-connector_2.11 package

Новый MongoDB Разъем для Apache Спарк обеспечивает более высокую производительность, большую простоту в использовании и, доступ к более продвинутой функциональности Спарк, чем разъем MongoDB для Hadoop. Следующая таблица сравнивает возможности обоих разъемов.

Затем вам нужно настроить Спарк с Mesos:

Connecting Spark to Mesos

To use Mesos from Spark, you need a Spark binary package available in a place accessible by Mesos, and a Spark driver program configured to connect to Mesos. 

Alternatively, you can also install Spark in the same location in all the Mesos slaves, and configure spark.mesos.executor.home (defaults to SPARK_HOME) to point to that location.

источник

2016-08-23 11:40:25 MrElefant

Нет. Я не хочу иметь эту зависимость Hadoop. Я говорю об Искры, идущей прямо в MongoDB через Мезос. – Mario

Spark to MongoDB через Mesos

ответ

Смежные вопросы