Может ли AWS ElasticMapReduce взять папки S3 в качестве входа?

В настоящее время я пытаюсь запустить задание mapreduce, в котором входы разбросаны в разных папках под общим ведром в S3.Может ли AWS ElasticMapReduce взять папки S3 в качестве входа?

Мой первоначальный подход заключался в создании кластера для каждого из входных файлов и записи отдельных выходов для каждого из них. Однако для этого потребуется развернуть более 200 кластеров, и я не думаю, что это самый эффективный способ.

Мне было интересно, могу ли я вместо указания файла в качестве входа в EMR указать папку, вложенные папки которой содержат все входные файлы.

Спасибо!

источник

2015-07-27 user136482

Да, вы можете указать папку, вложенные папки которой содержат все входные файлы. Однако в вашем коде вам необходимо убедиться, что ваши функции ищут подпапки на входе, а не просто принимают основную папку в качестве входных данных.

источник

2015-09-18 18:00:25 BreKru212

Может ли AWS ElasticMapReduce взять папки S3 в качестве входа?

ответ

Смежные вопросы