2016-10-27 2 views
0

Мне нужно выполнить следующий рабочий процесс в моем кластере приложений.Может ли oozie отслеживать каталог для новых файлов в каталоге hdfs?

  • Новые файлы добавляются в каталог HDFS,/экспорт/(несколько раз в день)
  • Файлы в двух форматах: * _A.csv и * _B.csv
  • Скопировать все * _A. CSV в/ульях/dumptable_a/
  • Скопировать все * _B.csv в/ульях/dumptable_b/
  • Выполнить улей запрос вставки для загрузки секционированной таблицы А из dumptable_a
  • Выполнить улей вставку запроса для загрузки секционированной таблицы B от dumptable_b
  • Удалить данные/ульи/dumptable_a/и/ульи/dumptable_b/

Может oozie быть настроено для мониторинга/экспорта/для новых файлов, и начать рабочий процесс? Если oozie не может это сделать, или если это не правильный инструмент, какая лучшая альтернатива?

+0

Возможный дубликат [Oozie координатор на основе файла] (http://stackoverflow.com/questions/27863577/oozie-file-based-coordinator) –

ответ

0

Да, как упоминалось в Рахуле, просмотрите Oozie file based coordinator, где вы можете найти пример того, как использовать элементы <datasets> и <input-events>.

Или вы можете посмотреть на пример в oozie документации here

Смежные вопросы