2016-10-10 2 views
1

Я управляю большими, чем память csv-файлами в основном категориальных данных. Первоначально я использовал для создания большого файла csv, затем читал его через Pandas read_csv, преобразовывал в категориальный и сохранял в hdf5. Когда-то в категориальный формат, он хорошо вписывается в память.dask/pandas категориальные различия в трансформации

Файлы растут, и я переехал в Даск. Тем не менее, тот же процесс.

Однако в пустых полях Pandas, похоже, использует np.nan, и категория не включена в список cat.categories.

С Dask пустые значения заполнены NaN, он включается как отдельная категория и откуда сохраняется в формате HDF. Я получаю предупреждение о будущем совместимости.

Является ли это ошибкой или не хватает каких-либо шагов? Поведение, похоже, различается между пандами и дасками.

Благодаря

JC

ответ

Смежные вопросы