Я хотел бы выполнить Apache Spark map-уменьшить на 5 файлов и вывести их в mongodb. Я бы предпочел не использовать HDFS, поскольку NameNodes являются единственной точкой отказа (http://wiki.apache.org/hadoop/NameNode).apache spark stand alone подключение к mongodb с scala с использованием casbah
А. Является ли это possilbe читать несколько файлов в РДУ, выполнить сокращение карты на ключе от всех файлов и использовать касбы инструментарий для вывода результатов MongoDB
В. Можно ли использовать клиент, чтобы читать с mongodb в RDD, выполнять сокращение карты и правый вывод обратно в mongodb с помощью инструментария casbah
C. Возможно ли читать несколько файлов в RDD, сопоставлять их с ключами, которые существуют в mongodb, сводить их к один документ и вставить их обратно в mongodb
Я знаю, что все это возможно с помощью монго- соединительный кабель. Мне просто не нравится идея использования HDFS, поскольку это единственная точка отказа, а backUpNameNodes еще не реализованы.
Ive читал некоторые вещи в режиме онлайн, но они не ясны.
MongoDBObject not being added to inside of an rrd foreach loop casbah scala apache spark
Не уверен, что происходит там. JSON даже не появляется в силе ...
ресурсы:
https://github.com/mongodb/casbah
http://docs.mongodb.org/ecosystem/drivers/scala/
Но другая идея может работать поверх Amazon S3 или Google Cloud Storage. Я бы ожидал, что они будут более надежными, чем все, что вы можете приготовить @ daniel - без сомнения, это правда, но это не вариант. Не могли бы вы подробнее рассказать о том, как драйвер является единственной точкой отказа? вы имеете в виду фактическое приложение scala/java/python map-reduce или набор инструментов casbah? или искра сама? – user1290942
Само приложение scala/java/python. Если он умирает, все, что хранится в Spark RDD, теряется. –
Конечно, если вы временно используете RDD и сохраняете свои данные в MongoDB, вы, вероятно, находитесь в хорошем месте! –