2016-09-09 3 views
-2

У меня есть. CSV-файл (mydb.csv) со следующими записями (+1 миллион строк). 7-я строка этой таблицы содержит даты. Даты повторяются много раз, потому что этот набор данных содержит почасовые записи.Как среднечасовые наблюдения, хранящиеся в CSV-файле, в ежедневные наблюдения?

QTEwOA==,81881,-7.610773,-72.681333,220,A108,2016-06-11,08,21.4,95,994.3,3.3,0,0,, 
QTEwOA==,81881,-7.610773,-72.681333,220,A108,2016-06-11,09,21.3,95,994.1,1.2,0,0,, 
QTEwOA==,81881,-7.610773,-72.681333,220,A108,2016-06-11,10,21.2,94,994.5,2.1,0,0,, 
QTEwOA==,81881,-7.610773,-72.681333,220,A108,2016-06-11,11,20.9,94,994.7,1.3,0,0,, 
QTEwOA==,81881,-7.610773,-72.681333,220,A108,2016-06-11,12,20.9,93,995.6,1.7,0,0,0.0,0.0 

Мне нужно рассчитать средние значения за день для каждого записанного наблюдения.

Могу ли я сделать это в python или я должен преобразовать свой CSV-файл в sqlite-файл для запроса?

+1

Используйте ['pandas'] (http://pandas.pydata.org). – MattDMo

ответ

0

Вы можете использовать библиотеку pandas в python, чтобы сделать это очень быстро. Это будет выглядеть так:

import pandas as pd 
df = pd.read_csv("initial.csv") 
avgd_df = df.groupby('date').mean() 
avgd_df.to_csv("averaged.csv") 
Смежные вопросы