У меня есть набор данных с ~ 7M строк и 3 столбца, 2 числовых и 1, состоящий из ~ 20M различных строк uuids. Данные берут вокруг 3G как файл csv, и castra может хранить его примерно в 2G. Я бы хотел проверить bcolz с этими данными.размер данных взрывается при хранении в bcolz
Я попытался
odo(dask.dataframe.from_castra('data.castra'), 'data.bcolz')
который генерируется ~ 70г данных перед изнурительной дескрипторы на диске и грохот.
Каков рекомендуемый способ получения такого набора данных в bcolz?