У меня есть процесс, который идентифицирует объект в ведре S3, который должен быть преобразован с использованием нашего (довольно упрощенного) пользовательского кода Java. Выход этого преобразования записывается в другой префикс в ведро S3. Так что это просто, изолировал:Как распараллеливать обработку с S3 на S3
- Прочитайте входной поток объекта S3
- Преобразование объекта
- Записывает вывод в качестве нового объекта S3 или объекты
Этот процесс вероятно, всего несколько тысяч строк данных на объекте S3, но сотни (возможно, тысяч) объектов. Каков хороший подход к запуску этого процесса на нескольких машинах? Похоже, что я могу использовать Kinesis, EMR, SWF или что-то, что я готовлю самостоятельно. Каждый подход имеет довольно кривую обучения. С чего начать?
. мы хотим обработать его как можно быстрее. Когда ситуация начинает скатываться, это может быть около 100 ГБ/пробег. Это один и тот же тип данных для каждой записи. – user3923124