2016-06-20 6 views
-1

Я читаю большой объем данных из базы данных через pd.read_sql (... chunksize = 10000), который генерирует объект-генератор df.Pandas DataFrame chunks: запись объекта генератора DataFrame to_csv

В то время как я все еще могу работать с этим dataframe в не слияния с pd.merge (DF, df2 ...) некоторые функции больше не доступны, такие как df.to_cs (...)

Что такое лучший способ справиться с этим? Как я могу написать такой файл данных в CSV? Нужно ли мне перебирать его вручную?

ответ

0

Вы можете обрабатывать каждый фрагмент отдельно или комбинировать их, например. pd.concat для работы на всех кусках в целом.

Индивидуально, вы действительно перебирать куски так:

for chunk in pd.read_sql(...chunksize=10000): 
    # process chunk 

Совмещать, вы можете использовать list comprehension:

df = pd.concat([chunk for chunk in pd.read_sql(...chunksize=10000)]) 
#process df