2015-10-06 3 views
2

Я хочу преобразовать файл Parquet в CSV. Есть ли способ для того же, что и я могу найти CSV в файле Parquet, а не наоборот.Файл паркета для преобразования CSV

+0

Вы используете искры? Если, пожалуйста, используйте хорошие теги (apache-spark). – mauriciojost

+0

Не могли бы вы представить пример кода того, что вы хотели бы иметь? – mauriciojost

+0

См. Http://stackoverflow.com/questions/39419975/how-to-copy-and-convert-parquet-files-to-csv –

ответ

0
DataFrame df = sqlContext.parquetFile("parquet path"); 


    df.javaRDD().saveAsTextFile("outputpath"); 
0

Это работало для меня при использовании искры 2.1.0. Первый запуск искровой оболочки. Что-то вроде:

./bin/spark-shell 

затем:

val sqlContext = new org.apache.spark.sql.SQLContext(sc) 
val df = sqlContext.parquetFile("parquet-file.parquet") 
df.printSchema() 
df.write.format("csv").save("directory") 

будет создавать CSV-файлы в directory

0

Это будет просто используя искру и Python:

for filename in glob.glob("[location_of_parquet_file]/*.snappy.parquet"): 
     print filename 
     df = sqlContext.read.parquet(filename) 
     df.write.csv("[destination]") 
     print "csv generated" 
0

Это работало меня в искры

spark-shell --packages com.databricks:spark-csv_2.11:1.2.0 
val df = sqlContext.parquetFile("/hdfs/source.parquet") 
df.printSchema() 
df.write.format("com.databricks.spark.csv").save("/hdfs/target_csv") 
Смежные вопросы