2016-10-28 2 views
0

У меня есть прецедент, где у меня есть миллионы небольших файлов в S3, которые должны обрабатываться Spark. У меня есть два варианта, чтобы уменьшить количество задач: 1. Используйте Coalesce 2. Продлить CombineFileInputFormatИсправлены небольшие файлы (coalesce vs CombineFileInputFormat)

Но я не ясно, о последствиях исполнения с ботами, и когда использовать один над другими.

Кроме того, CombineFileInputFormat является абстрактным классом, это означает, что мне нужно предоставить мою реализацию. Но Спарк API (newAPIHadoopRDD) принимает имя класса, как парам, я не знаю, как передать конфигурируемый maxSplitSize

ответ

0

Другой отличный вариант для рассмотрения таких сценариев SparkContext.wholeTextFiles(), что делает одну запись для каждого файла с именем, key и содержание в качестве value - см. Documentation

Смежные вопросы