Я пишу этого кодискры сохранять и читать на паркет HDFS
val inputData = spark.read.parquet(inputFile)
spark.conf.set("spark.sql.shuffle.partitions",6)
val outputData = inputData.sort($"colname")
outputData.write.parquet(outputFile) //write on HDFS
Если я хочу, чтобы прочитать содержимое файла «OUTPUTFILE» из HDFS, я не нахожу такое же количество перегородок и данные не сортируются. Это нормально?
Я использую Спарк 2.0
Как вы проверяете количество разделов и читаете содержимое файла? Вы используете 'show()' или 'take()' для отображения содержимого? –