2015-03-03 5 views
1

У меня есть блог, предлагающий API REST для загрузки данных. API предоставляет список тем (в JSON). В списке можно перебирать и загружать сообщения по каждой теме. Я хочу каждый день загружать все сообщения форума и хранить их в HDFS.Результаты опроса от REST API до HDFS

Я думал о написании Java-программы, которая вызывает API для получения данных и хранения их на HDFS с использованием API Hadoop. Я могу запустить программу Java с ежедневной периодичностью Oozie.

Есть ли лучший способ для этого? возможно, сохраните данные в локальной файловой системе и поместите файл в HDFS в конце. Мне было интересно, можно ли использовать Flume в этом случае и какова будет его добавленная стоимость?

Заранее спасибо

ответ

1

Это, кажется, такая «простая» программа. Вы можете использовать любой язык/инструмент для чтения JSON из API для отдыха, а затем загружать контент в hdf.

И вам также нужен планировщик, чтобы запланировать работу.

С помощью Oozie + java/shell action /, он обеспечивает лучшее отслеживание с точки зрения истории работы. Я бы пошел на это, если oozie уже доступен.

Смежные вопросы