Использование конвейера данных AWS - EMR vs EC2

Я хотел бы использовать AWS Data Pipeline для выполнения ETL-процесса. Предположим, что мой процесс имеет небольшой входной файл, и я хотел бы использовать собственный скрипт jar или python для преобразования данных. Я не вижу причин использовать EMR кластера, чтобы сделать этот простой шаг данных. Итак, я хотел бы выполнить этот шаг данных в одном экземпляре EC2.Использование конвейера данных AWS - EMR vs EC2

Глядя на AWS DataPipeline на объект EMRActivity, я просто вижу возможность запуска с использованием кластера EMR. Есть ли способ выполнить шаг вычисления внутри экземпляра EC2? Это лучшее решение для этого случая использования? Или лучше настроить небольшой EMR (с одним узлом) и выполнить задание hadoop?

источник

2015-10-06 p.magalhaes

Если вам не нужен кластер EMR или инфраструктура Hadoop, и выполнение может быть легко запущено на одном экземпляре, чем вы можете использовать ShellCommandActivity, связанный с Ec2Resource (экземпляр) для выполнения работы. Простой пример: http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-getting-started.html

источник

2015-10-06 22:49:04 ChristopherB

Использование конвейера данных AWS - EMR vs EC2

ответ

Смежные вопросы