2013-11-19 5 views
1

Итак, у меня возникли проблемы с пониманием того, как выполняется перекрестная проверка в машинное обучение для построения модели.Как выполняется перекрестная проверка для тестирования?

Предположим, у меня есть набор данных со 100 образцами, и я выполняю проверку в 10 раз.

Из того, что я понимаю, я бы разделил набор данных на множества из 10 и взял 9 из этих наборов для обучения и тестирования на одном из этих наборов.

В конце концов, у меня было бы 10 различных классификаторов и результаты прогнозирования для всего набора данных.

Как бы использовать эти результаты для тестирования на новом 101-м примере?

Раньше мне говорили, что эти 10 разных классификаторов были просто усреднены, и результат используется для тестирования новой точки данных, но как именно это делается? Все 10 классификаторов работают на новом datapoint, а значение доверия в конце усреднено, чтобы получить окончательный, который используется для классификации? Или 10 сгенерированных классификаторов каким-то образом объединены в один? Я думал, что это второй случай, но теперь, когда я думаю об этом, я не уверен, как именно вы «объединили» разные классификаторы.

ответ

1

Перекрестная проверка используется для проверки способности вашего алгоритма обучения обобщать на невидимые данные, т. Е. Если ваша кросс-валидация дает хорошие результаты на ваших тестах.

Как только это будет установлено, вы можете использовать весь свой набор для обучения своей модели и применить ее к новым данным.

Что вы описываете, когда вы в среднем 10 классификаторов, обучающихся по разным данным, звучат немного как Bootstrapping, где вы объединяете разных слабых учеников в одного сильного ученика. Обратите внимание, что это означает, что разные ученики, а не ученики, обучающиеся по разным данным, обычно.

+0

Итак, предположим, что я использую Weka для создания чистых классификаторов. Что означает, что модель, получаемая с помощью установки перекрестной проверки, означает? Это происходит от начальной загрузки? – xhassassin

+0

Вы пробовали посмотреть документацию Уки? – PureW

1

Валидация используется для выбора модели. Если у вас есть модели M canditate, один с наименьшим классификационной ошибки м, где

0<m<=M 

, ошибка вне выборки не превысит ошибки проверки Eval плюс

sqrt(log(M)/K) 

, в вашем случае K = N/10.

Перекрестная проверка используется для усреднения 10 полученных ошибок проверки как Eval.

После определения модели m вы будете использовать все ваши данные образца для процесса обучения.

Смежные вопросы