У меня вопрос: у меня есть фрейм данных pandas, в котором пропущенные значения отмечены строкой na
. Я хочу запустить Imputer на нем, чтобы заменить отсутствующие значения средним значением в столбце. Согласно документации sklearn, параметр missing_values
должен помочь мне с этим:Python - использование SkLearn для использования в режиме реального времени
missing_values : integer or “NaN”, optional (default=”NaN”) The placeholder for the missing values. All occurrences of missing_values will be imputed. For missing values encoded as np.nan, use the string value “NaN”.
В моем понимании, это означает, что если я пишу
df = pd.read_csv(filename)
imp = Imputer(missing_values='na')
imp.fit_transform(df)
, что будет означать, что imputer заменяет что-нибудь в dataframe с значением na
со средним значением столбца. Однако вместо этого я получаю сообщение об ошибке:
ValueError: could not convert string to float: na
Что я неправильно интерпретирую? Разве это не так, как должен работать компьютер? Как я могу заменить строки na
на среднее значение? Должен ли я просто использовать лямбда для этого?
Спасибо!