Я пытаюсь подключить Apache Spark к MongoDB, используя Mesos. Вот моя архитектура: -Spark to MongoDB через Mesos
MongoDB: MongoDB Cluster of 2 shards, 1 config server и 1 сервер запросов. Mesos: 1 Mesos Master, 4 Mesos slaves
Теперь я установил Spark только на один узел. Об этом там мало информации. Я просто хотел задать несколько вопросов:
Как я понимаю, я могу подключить Spark к MongoDB через mesos. Другими словами, я в конечном итоге использую MongoDB в качестве уровня хранения. Мне действительно нужен Hadoop? Обязательно ли вытащить все данные в Hadoop только для Spark, чтобы прочитать его?
Вот почему я спрашиваю об этом. Установка Spark предполагает, что будет задана переменная HADOOP_HOME. Это кажется очень плотным соединением !! Большинство сообщений в сети говорят о разъеме MongoDB-Hadoop. Это не имеет смысла, если вы заставляете меня переводить все на хаоп.
Есть ли у кого-нибудь ответ?
Привет Марио
Спасибо Росс. Однако, как упоминалось выше Youe, Spark ожидает, что переменная HADOOP_HOME будет установлена во время установки! Это ясно указывает на то, что он привязан к бедрам с Hadoop, независимо от того, что они говорят о том, что Spark является независимым. – Mario