Могу ли я надолго закодировать ту же строку в том же столбце? Label encoding across multiple columns in scikit-learn предлагает хороший способ обработки кадра данных с несколькими категориальными значениями. Тем не менее, я не уверен, что это правильно сохранится (в рассоле) и снова применит те же метки для свежих входящих данных.кодировка постоянных меток в конвейере sklearn
До сих пор я использовал pandas напрямую и получал ярлыки через .cat.codes
значений категории. Но теперь мне нужно интегрировать кодирование меток в конвейер для обработки свежих входящих данных.
Would что-то вроде
le = LabelEncoder()
for col in df.select_dtypes([], ['object'].columns:
df[col] = le.fit_transform(df[col])
Или предлагаемое решение MultiColumnLabelEncoder
хватает для моей задачи?
Этот ответ предполагает, что вам нужно иметь всю фреймворк в памяти во время вывода. Далек от идеала. – marbel
@marbel Я понимаю. Какое решение вы бы предложили? –
Просто, чтобы оставить его здесь как ссылку, я ответил на вопрос [здесь] (http://stackoverflow.com/questions/40321232/handling-unknown-values-for-label-encoding) – marbel