2015-08-29 24 views
2

Мне интересно, какой должен быть лучший подход, чтобы сбрасывать много твитов, полученных из Twitter Streaming API в COSMOS, чтобы запустить очень простое задание MR.Дайп Twitter твиты от MongoDB до COSMOS

Я думал о преобразовании документов коллекции в CSV, по одному на каждую строку, а затем scp их в COSMOS. Но я не уверен, что мне нужно, чтобы HIVE выполнял работу MR после этого, или я могу выполнять работу более вручную. Я думал об использовании Python для этого, я предпочитаю не использовать Java.

Благодаря

+0

Привет Alejandro :-) Я не собираюсь быть полезным здесь, так как я не очень много знаю о COSMOS, но я, однако, хотел бы оставить строку, чтобы просто поздороваться и ... a) спросить, не так ли? о том, как запустить свою работу MR в mongoDB? b) сообщить вам (возможно, уже знаете это), что экспорт csv из коллекции mongo является очень дорогостоящей операцией. Regars - Nick – nickmilon

+0

@nickmilon Спасибо, что указали это, я знаю, что задания MR можно запускать непосредственно в MongoDB, я хотел попробовать COSMOS для этого. Что касается CSV, на самом деле не знаю, так или иначе, это будет пакетный процесс, поэтому мне действительно не нужна обработка в реальном времени :) – AlejandroVK

ответ

0

Я думаю, что не стоит сбрасывать данные, то MongoDB connector for Haddop может быть использован. AFAIK, такой соединитель позволяет извлекать данные только тогда, когда они будут обработаны, получив записей по данным , разбивает так, как они необходимы процессам карты в Hadoop. Я имею в виду, вместо того, чтобы использовать значение по умолчанию FileInputFormat, вы используете MongoInputFormat, который реализует интерфейс InputFormat и, таким образом, предоставляет метод для получения списка разделов (который будет представлять собой какой-то раздел данных с постоянным размером данных в MongoDB, например коллекция chanck) и метод для получения записей в рамках разделов (например, JSON-документ в chanck коллекции).

Этот тип соединителя должен быть установлен во всех узлах кластера; он находится в нашей дорожной карте вместе с нашим собственным connector, который работает аналогично для CKAN. Он утихло к концу сентября.

Сказано, что если по какой-либо причине вы по-прежнему хотите сбросить данные в HDFS, лучшим вариантом будет создание сценария, отвечающего за чтение данных MongoDB и преобразование его в уведомления, подобные NGS, поднимитесь на Cygnus; то Лебедь выполнит всю работу.

+0

Нужно ли быть формат NGSI да или да? CSV не вариант? Я действительно не понимаю, зачем мне нужен формат данных Orion ... Обязательно ли использовать NGSI? Спасибо – AlejandroVK

+0

Он работает с NGSI только для входа Cygnus (это «язык», который говорит Cygnus), тогда данные будут сохранены в формате JSON в файлах HDFS. – frb

+0

Зачем мне здесь пользоваться Лебедь? Я до сих пор не вижу, как это связано с Orion-Cygnus ... – AlejandroVK

Смежные вопросы