2016-07-02 4 views
2

Я хотел применить одну горячую кодировку (не важно понять вопрос) на мой dataframe так:Как сделать столбцы в dataframe уникальными?

train = pd.concat([train, pd.get_dummies(train['Canal_ID'])], axis=1, join_axes=[train.index]) 
train.drop([11,'Canal_ID'],axis=1, inplace = True) 

train = pd.concat([train, pd.get_dummies(train['Agencia_ID'])], axis=1, join_axes=[train.index]) 
train.drop([1382,'Agencia_ID'],axis=1, inplace = True) 

К сожалению, оригинальный dataframe имел номер как значения, поэтому после получения пустышки переменных , есть много столбцов с тем же именем. Как я могу сделать их уникальными?

ответ

1

Вы можете установить новые имена столбцов от range с shape:

df.columns = range(df.shape[1]) 

Пример:

df = pd.DataFrame({'A':[1,2,3], 
        'B':[4,5,6], 
        'C':[7,8,9], 
        'D':[1,3,5], 
        'E':[5,3,6], 
        'F':[7,4,3]}) 
print (df) 
    A B C D E F 
0 1 4 7 1 5 7 
1 2 5 8 3 3 4 
2 3 6 9 5 6 3 

print (df.shape) 
(3, 6) 

df.columns = range(df.shape[1]) 
print (df) 
    0 1 2 3 4 5 
0 1 4 7 1 5 7 
1 2 5 8 3 3 4 
2 3 6 9 5 6 3 
1

Я бы добавил случайное число к исходному идентификатору столбцов.

new_cols = train.columns 
new_cols = new_cols.map(lambda x: "{}-{}".format(x, randint(0,100)) 
train.columns = new_cols 
+0

Я боюсь столкновения, но довольно хорошая идея)) – Rocketq

+1

Ну, измените randint для UUID и не будет никаких столкновений – kiril

2

Попробуйте это: get_dummies имеет метод "префикс"

df = pd.DataFrame({'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'], 
        'C': [1, 2, 3]}) 

pd.get_dummies(df, prefix=['col1', 'col2']) 
    C col1_a col1_b col2_a col2_b col2_c 
0 1  1  0  0  1  0 
1 2  0  1  1  0  0 
2 3  1  0  0  0  1