Как обрабатывать только новые файлы с использованием конвейера данных AWS и EMR? Я могу получить различное количество файлов в моем исходном каталоге. Я хочу обрабатывать их с использованием конвейера данных AWS и EMR в виде одного файла после другого файла. Я не уверен, как это условие может быть пре-условие «существует» или «Командная команда Shell». Пожалуйста, предложите способ обработки списка дел с помощью добавления шагов EMR или создания кластеров EMR для каждого файла.Как обрабатывать только файлы дельта в datapipeline aws и EMR
ответ
Как это обычно делается в datapipeline, это использовать выражения расписания при обращении к исходной директории. Например,
если ваш pipeine планируется запустить ежечасно и указать "s3: // ведро/# {формат (minusMinutes (@ scheduledStartTime, 60), 'YYYY-MM-дд чч')}"
в качестве каталога ввода, datapipeline будет решать это до «s3: // bucket/2016-10-23-16», когда он работает в час 17. Таким образом, задание будет читать только данные, соответствующие часу 16. Если вы можете структурировать этот вход может использоваться для создания данных таким образом. См. http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-pipeline-expressions.html для получения дополнительных примеров выражений.
К сожалению, нет встроенной поддержки «получить данные с момента последней обработки».
- 1. AWS Datapipeline ServiceAccessSecurityGroup
- 2. aws datapipeline s3 to mysql error
- 3. Sentry in AWS EMR
- 4. AWS Datapipeline to Ruby Code
- 5. Как выполнить сценарии AWS emr и redshift?
- 6. AWS Datapipeline RedShiftCopyActivity - как указать «столбцы»
- 7. Как изменяет размер AWS EMR
- 8. нужно запустить Баш скрипт в AWS datapipeline
- 9. Использование конвейера данных AWS - EMR vs EC2
- 10. AWS EMR Hadoop Administration
- 11. Как удалить кластер AWS EMR?
- 12. AWS EMR Parallel Mappers?
- 13. AWS EMR Auto Scaling
- 14. Перезапустить Oozie в AWS EMR
- 15. Команда Redshift COPY vs AWS datapipeline RedshiftCopyActivity
- 16. Как добавить искровой шаг python в EMR?
- 17. В таблице динамических данных AWS Datapipeline для s3, как использовать имя таблицы в качестве имени файла?
- 18. AWS datapipeline, основанный на запуске запуска
- 19. AWS EMR запись в KMS Зашифрованные файлы паркета S3
- 20. AWS Datapipeline - выпуск с акцентированными символами
- 21. сравнивать файлы в сценарии оболочки и дельта
- 22. Загрузка AWS EMR с S3
- 23. Aws Datapipeline: содержимое списка выходного ведра в ShellCommandActivity
- 24. как работает диспетчер времени datapipeline
- 25. Spark UI на AWS EMR
- 26. AWS EMR SSE Согласованный вид
- 27. Объединение выходных данных AWS EMR
- 28. avro error на AWS EMR
- 29. удалить s3 файлы из конвейера AWS
- 30. AWS EMR-кластер не запускается