Я создал модель RandomForestClassification, используя Sklepn, используя 10 различных текстовых функций и набор для обучения 10000. Затем я мариновал модель (76mb) в надежде использовать ее для прогнозирования.Прогнозирование из SciKitLearn RandomForestClassification с категориальными данными
Однако, чтобы создать случайный лес, я использовал LabelEncoder и OneHotEncoder для получения наилучших результатов по категориальным/строковым данным.
Теперь я хотел бы подтянуть маринованную модель и получить классификационное предсказание по 1 экземпляру. Тем не менее, я не уверен, как закодировать текст в экземпляре 1, не загружая весь тестовый набор данных & CSV и просматривая весь процесс кодирования.
Кажется, очень сложно загружать файлы csv каждый раз. Я бы хотел, чтобы это выполнялось 1000 раз в час, поэтому мне это не кажется правильным.
Есть ли способ быстро кодировать 1 ряд данных, учитывая рассол или другую переменную/настройку? Всегда ли требуется кодирование ВСЕХ данных?
Если загрузка всех данных обучения требуется для кодирования одной строки, было бы полезно кодировать текстовые данные самостоятельно в базе данных, где каждая функция, назначенная таблице, автоматически увеличивалась с числовым идентификатором и ключом UNIQUE на текстовое/категориальное поле, затем передать этот идентификатор в RandomForestClassification? Очевидно, мне нужно будет переоборудовать и рассортировать эту новую модель, но тогда я точно знаю (закодированное) числовое представление новой строки и просто запрошу предсказание этих значений.
Очень вероятно, что у меня отсутствует функция или непонимание SkLearn или Python, я только начал работать 3 дня назад. Пожалуйста, извините мою наивность.
Вы должны были мариновать свой объект LabelEncoder ... –