Я думаю, что не стоит сбрасывать данные, то MongoDB connector for Haddop может быть использован. AFAIK, такой соединитель позволяет извлекать данные только тогда, когда они будут обработаны, получив записей по данным , разбивает так, как они необходимы процессам карты в Hadoop. Я имею в виду, вместо того, чтобы использовать значение по умолчанию FileInputFormat
, вы используете MongoInputFormat
, который реализует интерфейс InputFormat
и, таким образом, предоставляет метод для получения списка разделов (который будет представлять собой какой-то раздел данных с постоянным размером данных в MongoDB, например коллекция chanck) и метод для получения записей в рамках разделов (например, JSON-документ в chanck коллекции).
Этот тип соединителя должен быть установлен во всех узлах кластера; он находится в нашей дорожной карте вместе с нашим собственным connector, который работает аналогично для CKAN. Он утихло к концу сентября.
Сказано, что если по какой-либо причине вы по-прежнему хотите сбросить данные в HDFS, лучшим вариантом будет создание сценария, отвечающего за чтение данных MongoDB и преобразование его в уведомления, подобные NGS, поднимитесь на Cygnus; то Лебедь выполнит всю работу.
Привет Alejandro :-) Я не собираюсь быть полезным здесь, так как я не очень много знаю о COSMOS, но я, однако, хотел бы оставить строку, чтобы просто поздороваться и ... a) спросить, не так ли? о том, как запустить свою работу MR в mongoDB? b) сообщить вам (возможно, уже знаете это), что экспорт csv из коллекции mongo является очень дорогостоящей операцией. Regars - Nick – nickmilon
@nickmilon Спасибо, что указали это, я знаю, что задания MR можно запускать непосредственно в MongoDB, я хотел попробовать COSMOS для этого. Что касается CSV, на самом деле не знаю, так или иначе, это будет пакетный процесс, поэтому мне действительно не нужна обработка в реальном времени :) – AlejandroVK