Можно настроить координатор Oozie, что может вызвать рабочий процесс для обработки каждой группы файлов при следующих условиях:Oozie конфигурации Координатор для нескольких зависимостей файла
Группы определяется мною как просто набор файлов под родительский каталог. Каждый xx mins Группы файлов загружаются в соответствующий каталог HDFS. Каждая группа файлов представляет таблицы из определенной базы данных. Каждая группа файлов содержится в их собственной родительской папке HDFS, например Database1, Database2.
Имена файлов во всех именах родительских/групповых имен. То, что я хотел бы сделать oozie (если это возможно): Сканировать, что все файлы в этом конкретном родительском каталоге существуют, каждое имя файла будет отличаться и именуется по умолчанию после таблиц, которые представляют эти файлы с разделителями.
Если все файлы существуют (из шаблона, определенного в Oozie), я exexute рабочего процесса.
Как настраивается oozie, я предполагаю, что это может быть не так гибко, чтобы обрабатывать этот конкретный запрос, но я хотел бы узнать от вас, ребята, ваши мысли.
Мои руки связаны с изменением папки/файловой структуры в HDFS. Мне нужно знать правильные вопросы, чтобы спросить парня, ответственного за генерацию входящих файлов.
Любое понимание/опыт будет оценен!