Исправлены небольшие файлы (coalesce vs CombineFileInputFormat)

У меня есть прецедент, где у меня есть миллионы небольших файлов в S3, которые должны обрабатываться Spark. У меня есть два варианта, чтобы уменьшить количество задач: 1. Используйте Coalesce 2. Продлить CombineFileInputFormatИсправлены небольшие файлы (coalesce vs CombineFileInputFormat)

Но я не ясно, о последствиях исполнения с ботами, и когда использовать один над другими.

Кроме того, CombineFileInputFormat является абстрактным классом, это означает, что мне нужно предоставить мою реализацию. Но Спарк API (newAPIHadoopRDD) принимает имя класса, как парам, я не знаю, как передать конфигурируемый maxSplitSize

источник

2016-10-28 user401445

Другой отличный вариант для рассмотрения таких сценариев SparkContext.wholeTextFiles(), что делает одну запись для каждого файла с именем, key и содержание в качестве value - см. Documentation

источник

2016-10-28 06:28:58 ShirishT

Исправлены небольшие файлы (coalesce vs CombineFileInputFormat)

ответ

Смежные вопросы