2015-02-20 1 views
0

У меня вопрос о перекрестной проверке: я использую классификатор Naive Bayes для классификации сообщений блога автором. Когда я проверяю свой набор данных без к-кратной проверки перекрестных ссылок, я получаю оценку точности 0,6, но когда я выполняю кросс-проверку перекрестных ссылок, каждая справка дает гораздо более высокую точность (более 0,8).Точность увеличивается с использованием кросс-валидации и уменьшается без

Например:

(расщепление вручную): Проверка Набор Размер: 1452, обучающего множества Размер: 13063, Точность: 0.6033057851239669

, а затем

(с к -fold): Fold 0 -> Training Set Size: 13063, Validation Set Размер: 1452 Точность: 0.8039702233250621 (все форы выше 0.8)

и т.д.

Почему это происходит?

+0

, пожалуйста, не перекрестно отправляйте свой вопрос на несколько сайтов SE ... http://stats.stackexchange.com/questions/138449/accuracy-increases-using-cross-validation-and-decreases-without – cel

ответ

1

Есть несколько причин, это может произойти:

  1. Ваш «ручной» раскол не является случайным, и вы случайно выбрать больше выбросов, которые трудно предсказать. Как вы делаете этот раскол?

  2. Что такое k в краткости CV? Я не уверен, что вы подразумеваете под определением Set Size, у вас есть размер сгиба в k-кратном CV. Нет установленного набора валидации, вы выполняете перекрестное подтверждение, используя все ваши данные. Вы уверены, что правильно используете кросс-проверку перекрестных ссылок?

Обычно выбирает k = 10 для проверки креста k-fold. Если вы запустите его правильно, используя все ваши данные, вы должны полагаться на его результаты вместо других результатов.

+0

k = 10, выяснилось, что расщепление не было выполнено хорошо, а комплекты для обучения и тестирования не были совершенно разрознены. Теперь точность согласована. спасибо – jablesauce

Смежные вопросы