кодировка постоянных меток в конвейере sklearn

Могу ли я надолго закодировать ту же строку в том же столбце? Label encoding across multiple columns in scikit-learn предлагает хороший способ обработки кадра данных с несколькими категориальными значениями. Тем не менее, я не уверен, что это правильно сохранится (в рассоле) и снова применит те же метки для свежих входящих данных.кодировка постоянных меток в конвейере sklearn

До сих пор я использовал pandas напрямую и получал ярлыки через .cat.codes значений категории. Но теперь мне нужно интегрировать кодирование меток в конвейер для обработки свежих входящих данных.

Would что-то вроде

le = LabelEncoder() 
for col in df.select_dtypes([], ['object'].columns: 
    df[col] = le.fit_transform(df[col])

Или предлагаемое решение MultiColumnLabelEncoder хватает для моей задачи?

источник

2016-10-27 Georg Heiler

-1

Кажется, уже быть обработаны в едином корпусе колонки Usng same Label Encoder to test dataset? or new Label Encoder?

Таким образом, я использовал вышеупомянутое решение нескольких столбцов следует, которые прекрасно работали.

источник

2016-10-28 12:44:11

Этот ответ предполагает, что вам нужно иметь всю фреймворк в памяти во время вывода. Далек от идеала. – marbel

@marbel Я понимаю. Какое решение вы бы предложили? –

Просто, чтобы оставить его здесь как ссылку, я ответил на вопрос [здесь] (http://stackoverflow.com/questions/40321232/handling-unknown-values-for-label-encoding) – marbel

По этой же проблеме и удалось найти работу, если мы сможем сохранить информацию об экземпляре энкодера, мы можем использовать ее для получения ожидаемых результатов. ниже ссылки имеет подробный ответ на этот вопрос: Using Scikit's LabelEncoder correctly across multiple programs

источник

2017-08-16 12:48:58 mayank

кодировка постоянных меток в конвейере sklearn

ответ

Смежные вопросы