2016-09-02 3 views
3

Я недавно узнал, как работает надзорное обучение. Он изучает маркированный набор данных и предсказывает немаркированные данные.Создание контролируемой модели в машинном обучении

Но у меня есть вопрос, что хорошо преподавать созданную модель с предсказанной базой данных, а затем снова предсказывать немеченые данные. И повторите этот процесс.

Например, модель M была создана 10 помеченными данными D, затем модель M предсказывает дату A. Затем данные A добавляются в набор данных D и снова создают модель M. Процесс повторяется с количеством непредсказуемых данных.

ответ

-1

То, что вы описали, называется online machine learning, инкрементное контролируемое обучение, обновляемые классификаторы ... Существует множество алгоритмов, которые выполняют такое поведение. См., Например, weka toolbox Updateable Classifiers. Предлагаю посмотреть следующие.

  • HoeffdingTree
  • ИБК
  • NaiveBayesUpdateable
  • SGD
+0

Извините, но эти темы не имеют значения. Онлайн-обучение предназначено для случаев, когда на каждом шаге вы должны предсказать результат, и после этого вы получите правильную метку. Это не связано с вопросом, где ОП просто предлагает переписать алгоритм с набором тренировок, дополненным метками, полученными исходной моделью. Дальнейшая стадия, на которой показаны истинные метки, не существует. –

+0

@AmiTavory Я предлагаю перечитать, что читает в Интернете. Это то, что он описывает. –

+0

Просто, чтобы убедиться, что именно в моем вышеприведенном комментарии вы не согласны: 1. вопреки тому, что я думаю, ОП описывает ситуацию, когда итеративно появляются более помеченные данные. 2. Вопреки тому, что я думаю, онлайн-алгоритмы, которые вы упомянули, продолжают обновлять предсказание, даже если больше ярлыков не приходит (добавляются только экземпляры независимой переменной). –

2

То, что вы описываете здесь хорошо известный метод, известный как (среди других имен) "себя обучения" или " self полуконтролируемое обучение ". См. Например слайды https://www.cs.utah.edu/~piyush/teaching/8-11-print.pdf. В этой идее есть изменения. К сожалению, в целом трудно доказать, что это должно помочь, поэтому, хотя это поможет некоторым наборам данных, это будет трудно другим. Основным критерием здесь является качество самой первой модели, поскольку selftraining базируется на предположении, что ваша оригинальная модель действительно хороша, таким образом вы можете доверять ей достаточно, чтобы обозначить новые примеры. Это может помочь с медленным концептуальным дрейфом с сильной моделью, но провалится с ошибками со слабыми моделями.

+0

Интересный ответ. –

Смежные вопросы