2015-12-14 2 views
3

, когда я пытаюсь создать DASK dataframe путем чтения файла рассол, РМКО получаю ошибкусоздания DASK dataframe путем чтения файла рассола в DASK модуль Python

import dask.dataframe as dd 
ds_df = dd.read_pickle("D:\test.pickle") 

AttributeError: 'module' object has no attribute 'read_pickle' 

but it works fine with read_csv 

И в панд она была успешной, как обычно, ,

Так что, пожалуйста, поправьте меня, если я делаю что-то неправильно там или в dask мы не можем создать dataframe, читая файл pickle вообще.

ответ

3

Обратите внимание: dask.dataframe не полностью реализует Pandas. Вы не должны ожидать, что в каждой операции pandas будет установлен аналог в dask.dataframe.

Мы не выбрали для чтения чтение из файлов pickle, в частности, потому что нет возможности прочитать только часть файла pickle; все сразу бросается в память. Из-за этого файлы рассола не имеют большого значения, когда дело доходит до чтения больших наборов данных по частям с диска.

Если вы просто ищете параллелизм, то я рекомендую использовать pandas.read_pickle вместе с dask.dataframe.from_pandas

df = pd.read_pickle(...) 
ddf = dd.from_pandas(df, npartitions=8) 
+0

@ Мэтью-получил it.Can вы, пожалуйста, помогите мне в http://stackoverflow.com/questions/34266263/ read-csv-with-separator-in-python-dask? noredirect = 1 # comment56274694_34266263 это. – Satya

+0

Я был вынужден попробовать pickle читать bcoz, что чтение csv с разделителем не получилось. – Satya

Смежные вопросы