У меня есть файл CSV, содержащий расстояние между центрами тяжести в ГИС-модели в следующем формате:Как ускорить код - поиск через dataframe занимает несколько часов
InputID,TargetID,Distance
1,2,3050.01327866
1,7,3334.99565217
1,5,3390.99115304
1,3,3613.77046864
1,4,4182.29900892
...
...
3330,3322,955927.582933
Он отсортирован по происхождению (InputID
), а затем в ближайшем пункте (TargetID
).
Для конкретного инструмента моделирования, мне нужно эти данные в файле CSV, отформатированные следующим образом (цифры Центроид номер):
distance1->1, distance1->2, distance1->3,.....distance1->3330
distance2->1, distance2->2,.....
.....
distance3330->1,distance3330->2....distance3330->3330
Так что нет InputID-й или TargetID, все расстояние с происхождением на строки и направление на колоннах: (пример для первых 5 истоков/назначения)
0,3050.01327866,3613.77046864,4182.29900892,3390.99115304
3050.01327866,0,1326.94611797,1175.10254872,1814.45584129
3613.77046864,1326.94611797,0,1832.209595,3132.78725738
4182.29900892,1175.10254872,1832.209595,0,1935.55056767
3390.99115304,1814.45584129,3132.78725738,1935.55056767,0
Я построили следующий код, и она работает. Но это так медленно, что для его запуска потребуется несколько дней, чтобы получить файл 3330x3330. Как я новичок в Python, я думаю, что я что-то с видом ...
import pandas as pd
import numpy as np
file=pd.read_csv('c:\\users\\Niels\\Dropbox\\Python\\centroid_distances.csv')
df=file.sort_index(by=['InputID', 'TargetID'], ascending=[True, True])
number_of_zones=3330
text_file = open("c:\\users\\Niels\\Dropbox\\Python\\Output.csv", "w")
for origin in range(1,number_of_zones):
output_string=''
print(origin)
for destination in range(1,number_of_zones):
if origin==destination:
distance=0
else:
distance_row=df[(df['InputID']==origin) & (df['TargetID'] == destination)]
# I guess this is the time-consuming part
distance=distance_row.iloc[0]['Distance']
output_string=output_string+str(distance)+','
text_file.write(output_string[:-1]+'\n') #strip last ',' of line
text_file.close()
Не могли бы вы дать мне несколько советов, чтобы ускорить этот код?
Я не понимаю формат CSV. Можете ли вы предоставить явный пример ввода/вывода? –
Готово. Заранее спасибо! – Nelis