При сборке нового задания EMR с ведром S3 в качестве источника входного сигнала данные автоматически копируются из S3 в HDFS на узлах? Или данные остаются только в S3 и читаются, когда это необходимо, при работе с картами?Загрузка AWS EMR с S3
Получаю последние впечатления; но если данные хранятся в S3 и обработка, выполняемая в запрошенных экземплярах EC2, не противоречит ли это основополагающему принципу карты: выполняйте локальную обработку данных? В отличие от более традиционной системы: перемещение данных туда, где происходит обработка.
Каковы относительные последствия этого подхода, учитывая разумный большой набор данных, такой как 1PB, например. кластер займет больше времени?
Использование s3bfs (блок хранения файлов системы) обескураживает AWS: http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-file-systems.html – Guy
Ох .. я вижу .. спасибо за обновление. – Tariq