Я хотел бы использовать AWS Data Pipeline для выполнения ETL-процесса. Предположим, что мой процесс имеет небольшой входной файл, и я хотел бы использовать собственный скрипт jar или python для преобразования данных. Я не вижу причин использовать EMR кластера, чтобы сделать этот простой шаг данных. Итак, я хотел бы выполнить этот шаг данных в одном экземпляре EC2.Использование конвейера данных AWS - EMR vs EC2
Глядя на AWS DataPipeline на объект EMRActivity, я просто вижу возможность запуска с использованием кластера EMR. Есть ли способ выполнить шаг вычисления внутри экземпляра EC2? Это лучшее решение для этого случая использования? Или лучше настроить небольшой EMR (с одним узлом) и выполнить задание hadoop?