У меня есть прецедент, где у меня есть миллионы небольших файлов в S3, которые должны обрабатываться Spark. У меня есть два варианта, чтобы уменьшить количество задач: 1. Используйте Coalesce 2. Продлить CombineFileInputFormatИсправлены небольшие файлы (coalesce vs CombineFileInputFormat)
Но я не ясно, о последствиях исполнения с ботами, и когда использовать один над другими.
Кроме того, CombineFileInputFormat является абстрактным классом, это означает, что мне нужно предоставить мою реализацию. Но Спарк API (newAPIHadoopRDD) принимает имя класса, как парам, я не знаю, как передать конфигурируемый maxSplitSize