2016-06-27 4 views
1

У меня есть файл csv (содержащий только числовые данные) размером 18 МБ. Когда я прочитаю его и преобразую в массив numpy и сохранил его в формате hdf5 или рассоле, он занимает около 48 МБ дискового пространства. Не следует ли сжимать данные при использовании pickle или hdf5? Лучше ли сохранять в формате hdf5 потребляемый тензорным потоком? Данные Csv имеет видHdf5 и pickle занимает больше места, чем исходный файл csv

2,3,66,184,2037,43312,0,0,9,2,0,1,8745,1,0,2,6,204,27,97 
2,3,66,184,2037,43312,0,0,9,2,0,1,8745,1,0,2,6,204,27,78 
2,3,66,184,2037,43312,0,0,9,2,0,1,8745,1,0,1,6,204,27,58 

измерение данных является 310584 x 20

+0

Таким образом, HDF5 и рассол обойдется примерно в 48 МБ дискового пространства? Каковы размеры и тип набора данных? Также, если вы можете опубликовать несколько строк csv, которые могут быть полезны. –

+0

Размер 310584 X 20 – Himaprasoon

ответ

0

Numpy массив для целых чисел по умолчанию для Int64 DTYPE. Именно по этой причине данные занимали больше места, чем оригинал.

310584 X 20 x 8 ~= 48 MB (8 Bytes is the size for int64) 
Смежные вопросы