Как обрабатывать только файлы дельта в datapipeline aws и EMR

Как обрабатывать только новые файлы с использованием конвейера данных AWS и EMR? Я могу получить различное количество файлов в моем исходном каталоге. Я хочу обрабатывать их с использованием конвейера данных AWS и EMR в виде одного файла после другого файла. Я не уверен, как это условие может быть пре-условие «существует» или «Командная команда Shell». Пожалуйста, предложите способ обработки списка дел с помощью добавления шагов EMR или создания кластеров EMR для каждого файла.Как обрабатывать только файлы дельта в datapipeline aws и EMR

источник

2016-10-23 user3702893

Как это обычно делается в datapipeline, это использовать выражения расписания при обращении к исходной директории. Например,

если ваш pipeine планируется запустить ежечасно и указать "s3: // ведро/# {формат (minusMinutes (@ scheduledStartTime, 60), 'YYYY-MM-дд чч')}"

в качестве каталога ввода, datapipeline будет решать это до «s3: // bucket/2016-10-23-16», когда он работает в час 17. Таким образом, задание будет читать только данные, соответствующие часу 16. Если вы можете структурировать этот вход может использоваться для создания данных таким образом. См. http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-pipeline-expressions.html для получения дополнительных примеров выражений.

К сожалению, нет встроенной поддержки «получить данные с момента последней обработки».

источник

2016-10-24 21:28:31

Как обрабатывать только файлы дельта в datapipeline aws и EMR

ответ

Смежные вопросы