Я обрабатываю большое количество файлов в python и вам нужно написать вывод (один файл данных для каждого входного файла) в HDF5
напрямую. Мне интересно, как лучше всего записать pandas
кадр данных из моего сценария в HDF5
прямо в быстрый путь? Я не уверен, что любой модуль python, такой как hdf5, hasoopy может это сделать. Любая помощь в этом отношении будет оценена.Напишите кадр данных pandas для HDF5
2
A
ответ
1
Трудно дать вам хороший ответ на этот довольно общий вопрос.
Непонятно, как вы собираетесь использовать (читать) ваши файлы HDF5 - вы хотите выборочно выбирать данные (используя параметр where
)?
пихта всего вам нужно открыть магазин объект:
store = pd.HDFStore('/path/to/filename.h5')
теперь вы можете написать (или добавить) в магазин (я использую здесь blosc
сжатия - это довольно быстро и эффективно), рядом что я буду использовать data_columns
параметр, чтобы указать столбцы, которые должны быть проиндексированы (так что вы можете использовать эти столбцы в параметре where
позже, когда вы будете читать файл hdf5):
for f in files:
#read or process each file in/into a separate `df`
store.append('df_identifier_AKA_key', df, data_columns=[list_of_indexed_cols], complevel=5, complib='blosc')
store.close()
Смежные вопросы
- 1. Сохранить кадр данных Pandas из списка dicts как таблица hdf5
- 2. Кадр данных Pandas объединяет строки
- 3. Производительность агрегатов Pandas и HDF5
- 4. Кадр данных Pandas, выберите подмножество
- 5. Pandas + HDF5 Пакетное хранение данных для больших данных
- 6. pandas среднее значение кадр данных изменения исходный кадр данных
- 7. преобразование данных в кадр данных pandas
- 8. hdf5 file to pandas dataframe
- 9. широкий и большой формат при сохранении данных в pandas hdf5
- 10. Pandas - извлечение колонок HDF5 и использование памяти
- 11. Как правильно использовать итераторы Pandas для hdf5?
- 12. save pandas dataframe as hdf5
- 13. Исчерпанная память HDF5 в pandas
- 14. Кадр данных Pandas в словарь списков
- 15. Python/Pandas HDF5 NameError issue
- 16. Данные о кустах в Pandas Кадр данных
- 17. Кадр данных Pandas заполняет нулевые значения индексом
- 18. Напишите на HDF5 и перетасуйте большие массивы данных
- 19. Pandas: разделите кадр данных MultiIndex по строке
- 20. Средняя панель Pandas до hdf5
- 21. Арифметика в pandas Запросы HDF5
- 22. частотная таблица как кадр данных в pandas
- 23. индексирование и поворот (кадр данных, pandas, python)
- 24. Заполните кадр данных pandas, используя .append()
- 25. Преобразование вложенных json в кадр данных pandas
- 26. Обратный кадр данных pandas с дополнительными столбцами
- 27. Как создать кадр данных pandas из sqlite
- 28. Ускорение преобразования CSV в HDF5 в Pandas
- 29. Итерация через кадр данных Pandas для вычисления на основе условий
- 30. Pandas: Напишите dataframe для json с split
http://matthewrocklin.com/блог/работа/2016/02/22/dask-distrib-part-2 –
Никил предложил изменить для изменения HDFS в HDF5 (и затем ответил на основе этого), но и HDFS и HDF5 имеют смысл в контексте вашего вопроса ... что вы имели в виду? – Foon