Я использую Spark 1.6.0 и Scala.Как сохранить DataFrame как сжатый (gzipped) CSV?
Я хочу сохранить DataFrame как сжатый формат CSV.
Вот то, что я до сих пор (предположим, что у меня уже есть df
и sc
, как SparkContext
):
//set the conf to the codec I want
sc.getConf.set("spark.hadoop.mapred.output.compress", "true")
sc.getConf.set("spark.hadoop.mapred.output.compression.codec", "true")
sc.getConf.set("spark.hadoop.mapred.output.compression.codec", "org.apache.hadoop.io.compress.GzipCodec")
sc.getConf.set("spark.hadoop.mapred.output.compression.type", "BLOCK")
df.write
.format("com.databricks.spark.csv")
.save(my_directory)
Выход не в формате gz
.
Связанный вопрос о RDD: http://stackoverflow.com/questions/32231650/spark-rdd-saveastextfile-gzip –