В настоящее время я пытаюсь запустить задание mapreduce, в котором входы разбросаны в разных папках под общим ведром в S3.Может ли AWS ElasticMapReduce взять папки S3 в качестве входа?
Мой первоначальный подход заключался в создании кластера для каждого из входных файлов и записи отдельных выходов для каждого из них. Однако для этого потребуется развернуть более 200 кластеров, и я не думаю, что это самый эффективный способ.
Мне было интересно, могу ли я вместо указания файла в качестве входа в EMR указать папку, вложенные папки которой содержат все входные файлы.
Спасибо!