Я использую aws .net sdk для запуска задания s3distcp для EMR, чтобы объединить все файлы в папку с --groupBy arg. Но независимо от того, что «groupBy» аргументировал, я пробовал, он терпел неудачу все время или просто копировал файлы без конкатенации, например, если no -groupBy указан в списке arg.Как правильно управлять группой EMR S3DistCp?
файлы, расположенные в папке искровые saveAsTextFiles с именем, как показано ниже:
часть-0000
часть-0001
часть-0002
...
...
step.HadoopJarStep = new HadoopJarStepConfig
{
Jar = "/usr/share/aws/emr/s3-dist-cp/lib/s3-dist-cp.jar",
Args = new List<string>
{
"--s3Endpoint=s3-eu-west-1.amazonaws.com",
"--src=s3://foo/spark/result/bar" ,
"--dest=s3://foo/spark/result-merged/bar",
"--groupBy=(part.*)",
"--targetSize=256"
}
};
У меня очень похожая проблема с тем, что у вас было, но моя папка немного вложенная. Можете ли вы посмотреть https://stackoverflow.com/questions/46833387/using-groupby-while-copying- из-HDFS-к-s3-к-слияния-файлы-в-папки – Amistad