2016-10-27 3 views
2

Могу ли я надолго закодировать ту же строку в том же столбце? Label encoding across multiple columns in scikit-learn предлагает хороший способ обработки кадра данных с несколькими категориальными значениями. Тем не менее, я не уверен, что это правильно сохранится (в рассоле) и снова применит те же метки для свежих входящих данных.кодировка постоянных меток в конвейере sklearn

До сих пор я использовал pandas напрямую и получал ярлыки через .cat.codes значений категории. Но теперь мне нужно интегрировать кодирование меток в конвейер для обработки свежих входящих данных.

Would что-то вроде

le = LabelEncoder() 
for col in df.select_dtypes([], ['object'].columns: 
    df[col] = le.fit_transform(df[col]) 

Или предлагаемое решение MultiColumnLabelEncoder хватает для моей задачи?

ответ

-1

Кажется, уже быть обработаны в едином корпусе колонки Usng same Label Encoder to test dataset? or new Label Encoder?

Таким образом, я использовал вышеупомянутое решение нескольких столбцов следует, которые прекрасно работали.

+0

Этот ответ предполагает, что вам нужно иметь всю фреймворк в памяти во время вывода. Далек от идеала. – marbel

+0

@marbel Я понимаю. Какое решение вы бы предложили? –

+0

Просто, чтобы оставить его здесь как ссылку, я ответил на вопрос [здесь] (http://stackoverflow.com/questions/40321232/handling-unknown-values-for-label-encoding) – marbel

0

По этой же проблеме и удалось найти работу, если мы сможем сохранить информацию об экземпляре энкодера, мы можем использовать ее для получения ожидаемых результатов. ниже ссылки имеет подробный ответ на этот вопрос: Using Scikit's LabelEncoder correctly across multiple programs

Смежные вопросы