dask/pandas категориальные различия в трансформации

Я управляю большими, чем память csv-файлами в основном категориальных данных. Первоначально я использовал для создания большого файла csv, затем читал его через Pandas read_csv, преобразовывал в категориальный и сохранял в hdf5. Когда-то в категориальный формат, он хорошо вписывается в память.dask/pandas категориальные различия в трансформации

Файлы растут, и я переехал в Даск. Тем не менее, тот же процесс.

Однако в пустых полях Pandas, похоже, использует np.nan, и категория не включена в список cat.categories.

С Dask пустые значения заполнены NaN, он включается как отдельная категория и откуда сохраняется в формате HDF. Я получаю предупреждение о будущем совместимости.

Является ли это ошибкой или не хватает каких-либо шагов? Поведение, похоже, различается между пандами и дасками.

Благодаря

источник

2016-10-10 Julian C

Это решается в DASK версии 0.11.1

См https://github.com/dask/dask/pull/1578

источник

2016-10-13 17:57:29

dask/pandas категориальные различия в трансформации

ответ

Смежные вопросы