1

Я хотел бы использовать AWS Data Pipeline для выполнения ETL-процесса. Предположим, что мой процесс имеет небольшой входной файл, и я хотел бы использовать собственный скрипт jar или python для преобразования данных. Я не вижу причин использовать EMR кластера, чтобы сделать этот простой шаг данных. Итак, я хотел бы выполнить этот шаг данных в одном экземпляре EC2.Использование конвейера данных AWS - EMR vs EC2

Глядя на AWS DataPipeline на объект EMRActivity, я просто вижу возможность запуска с использованием кластера EMR. Есть ли способ выполнить шаг вычисления внутри экземпляра EC2? Это лучшее решение для этого случая использования? Или лучше настроить небольшой EMR (с одним узлом) и выполнить задание hadoop?

ответ

1

Если вам не нужен кластер EMR или инфраструктура Hadoop, и выполнение может быть легко запущено на одном экземпляре, чем вы можете использовать ShellCommandActivity, связанный с Ec2Resource (экземпляр) для выполнения работы. Простой пример: http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-getting-started.html

Смежные вопросы