Python: сохранить кадр данных pandas в файл паркета

Можно ли сохранить рамку данных pandas непосредственно в файл паркета? Если нет, то какой будет предлагаемый процесс?Python: сохранить кадр данных pandas в файл паркета

Цель состоит в том, чтобы отправить файл паркета в другую команду, в которой они могут использовать scala-код для чтения/открытия. Благодаря!

2016-12-09 Edamame

Является ли другая команда использованием Spark или других инструментов Scala? Загрузка CSV - это Spark довольно тривиально –

Если у вас есть 'pyspark', вы можете сделать что-то вроде [this] (https://gist.github.com/jiffyclub/905bf5e8bf17ec59ab8f#file-hdf_to_parquet-py) –

Существует относительно ранняя реализация пакета под названием fastparquet - это может быть хорошим прецедентом для того, что вам нужно.

conda install -c conda-forge fastparquet

или

pip install fastparquet 

from fastparquet import write 
write('outfile.parq', df)

или, если вы хотите использовать некоторые параметры файла, как строка группировки/сжатия:

write('outfile2.parq', df, row_group_offsets=[0, 10000, 20000], compression='GZIP', file_scheme='hive')

2017-02-17 18:01:21

pyarrow имеет поддержку хранения панд dataframes:

import pyarrow 

pyarrow.Table.from_pandas(dataset)

2017-11-20 19:16:34 user113531

Pandas имеет основную функцию to_parquet(). Просто напишите формат данных в паркетном формате следующим образом:

df.to_parquet('myfile.parquet')

2018-03-10 12:05:44 ben26941

ответ