У меня есть большой многомерный немаркированный набор данных автомобилей (цена, пробег, мощность, ...), для которых я хочу найти выбросы. Я решил использовать sklearn OneClassSVM для создания границы решения и иметь две основные проблемы с моим подходом:Полу-контролируемое обучение с помощью sklearn
- В моем наборе данных много недостающих значений. Есть ли способ заставить svm классифицировать данные с отсутствующими функциями как более строгие, если любые возможные значения для отсутствующих функций будут более значительными?
- Теперь я хочу добавить цикл обратной связи ручных модерируемых выбросов. Данные, скорректированные вручную, должны улучшить классификацию SVM. Я читал о модели LabelSpreading для обучения с полууправлением. Было бы целесообразным подавать выпуск классификации OneClassSVM модели LabelSpreading и переучивать эту модель, если достаточное количество записей будет проверено вручную?