2015-05-29 5 views
2

У меня есть большой файл csv, содержащий около 5000 строк. Первый столбец содержит идентифицирующие имена для каждой строки, то есть LHGZZ01. Первые 9 строк имеют LHGZZ01 как имя, следующие 10 имеют что-то еще и так далее. Не существует шаблона, поэтому я использовал np.unique, чтобы найти индекс, в котором имя изменяется.Запись строк в файл csv в цикле for в python

Я хочу написать цикл, который будет записывать каждую строку исходного кода csv в новые файлы csv, содержащие только те же имена в цикле.

datafile = open('source.csv','rb') 
reader = csv.reader(datafile) 
data = [] 
idx = [] 
dataidx = [] 
next(reader, None)#skip headers 
for row in reader: 
    d = row[0] 
    idx.append(d) 
    data.append(row) 
    dataidx.append(row[0]) 

index =np.sort(np.unique(idx,return_index=True)[1]) 

nme = []#list of unique names 
for row in index: 
    nm = data[row][0] 
    nme.append(nm) 

for i in np.arange(0,9): 
    with open(str(out_dir)+str(nme[0])+'.csv','w') as f1: 
     row = data[i] 
     writer=csv.writer(f1, delimiter=',')#lineterminator='\n', 
     writer.writerow(row) 

Код, указанный выше, записывает первую строку нового csv и останавливается.

Мой вопрос заключается в том, как я прохожу через файл source.csv, разделяющий данные после каждого нового изменения имени, а затем записывая строки с тем же именем строки в уникальный csv?

Извинения за длинный вопрос, но эта проблема за пределами моих навыков python, к сожалению, и меня заводит.

Любая помощь или предложения высоко оценили

Образец CSV:

Sample csv<br/> 
ID NORTH_DMS EAST_DMS DIST <br/> 
LHGZZ01 403921 374459 12500m <br/> 
LHGZZ01 403610 353000 12500m <br/> 
LHGZZ01 404640 360400 12500m <br/> 
LHGZZ01 404515 361900 12500m <br/> 
LHGZZ01 411240 381900 12500m <br/> 
LHGZZ01 415629 400600 12500m <br/> 
LHGZZ01 401503 384400 12500m <br/> 
LHGZZ01 400319 382200 12500m <br/> 
LHGZZ01 403921 372800 12500m <br/> 
LHGZZ02 412000 353200 12500m <br/> 
LHGZZ02 412749 343200 12500m <br/> 
LHGZZ02 403111 353000 12500m <br/> 
LHGZZ02 400600 374459 12500m <br/> 
LHGZZ02 401818 400600 12500m <br/> 
LHGZZ02 401525 393100 12500m <br/> 
LHGZZ02 401605 392400 12500m <br/> 
LHGZZ02 412000 384400 12500m <br/> 
LHGZZ02 372912 382157 8400m <br/> 
GPPHA01 381500 382200 8400m <br/> 
GPPHA01 393000 375252 8400m <br/> 
GPPHA01 395400 370602 8400m <br/> 
GPPHA01 401503 372912 8400m <br/> 
GPPHA01 400831 382157 8400m <br/> 
GPPHA01 390651 365700 8400m <br/> 
GPPHA01 372912 382954 8400m <br/> 
GPPHA02 392130 370602 12500m <br/> 
GPPHA02 400319 364000 12500m <br/> 
GPPHA02 400831 361900 12500m <br/> 
GPPHA02 390651 365700 12500m <br/> 
GPPHA02 382157 400600 12500m <br/> 
GPPHA02 382200 401818 12500m <br/> 
GPPHA02 375252 401525 12500m <br/> 
GPPHA02 385112 401605 12500m <br/> 
GPPHA02 392020 400319 12500m <br/> 
GPPHA02 392130 392130 12500m <br/> 
GPPHA03 392020 392020 9800m <br/> 
GPPHA03 385112 383000 9800m <br/> 
GPPHA03 382954 400600 9800m <br/> 
GPPHA03 365700 364000 9800m <br/> 
GPPHA03 381900 372912 9800m <br/> 
GPPHA03 383000 380700 9800m <br/> 
GPPHA03 392020 373724 9800m <br/> 
GPPHA03 385112 363842 7500m <br/> 
VVDFB01 374459 361210 12500m <br/> 
VVDFB01 353000 360002 12500m <br/> 
VVDFB01 360400 360002 12500m <br/> 
VVDFB01 361900 364000 12500m <br/> 
VVDFB01 381900 360002 12500m <br/> 
VVDFB01 400600 360002 12500m <br/> 
VVDFB01 384400 361210 12500m <br/> 
VVDFB01 382200 350530 12500m <br/> 
VVDFB02 372800 344400 12500m <br/> 
VVDFB02 353200 343100 12500m <br/> 
VVDFB02 343200 351448 12500m <br/> 
VVDFB02 353000 360002 12500m <br/> 
VVDFB02 374459 364000 12500m <br/> 
VVDFB02 400600 351448 12500m <br/> 
VVDFB02 393100 345353 12500m <br/> 
VVDFB02 392400 341731 12500m <br/> 
+1

Я думаю, что вы разместили свой код в два раза ... (выглядит дублируется на быстрый взгляд) –

ответ

3

Каждый раз, когда вы открываете файл в режиме w, он будет перезаписывать все, что там было. Вы должны открыть файл один раз, а затем цикл над вызовами writerow как:

with open(str(out_dir)+str(nme[0])+'.csv','w') as f1: 
    writer=csv.writer(f1, delimiter=',')#lineterminator='\n', 
    for i in np.arange(0,9): 
     row = data[i] 
     writer.writerow(row) 

вместо повторного открытия файла каждой итерации через for петли

+0

Спасибо за ответы ценят это. Я открывал файл в цикле, чтобы попытаться включить его в более крупный цикл, чтобы я мог открыть новый файл после некоторого количества итераций через цикл для каждого файла csv с новым именем. Не получилось так. благодаря – user8083

0

Просто, чтобы закончить вопрос выше.

Я решил свою проблему (не очень изящно), открыв/записав все файлы csv, которые мне нужны с атрибутом w. Затем использовался атрибут для добавления каждого файла csv в течение второго цикла цикла.

Спасибо за ответы

Cheers

Смежные вопросы