2013-03-20 4 views
-1

У меня есть проблема с svm. Я использовал svmtrain и svmclassify для классификации массы и массы. У меня есть подготовка данных 40 ложных положительных и 13 истинных положительных. когда я его тестирую (тестирование данных, которое я использовал = обучение данных) работает и дает на 100% больше. но когда я тестирую (тестирование данных, которое я извлекаю из обучения данных), обучение данных (TP = 8 FP = 30) и тестирование данных (TP = 5 FP = 10). результат дает все данные ложно положительными. есть ли какие-либо идеи по этой проблеме? или это из-за небольшого числа тестирования и обучения данных?Почему результаты классификации с использованием SVM не подходят в Matlab?

ответ

1

Вполне нормально, что независимый испытательный набор может работать плохо, а это значит, что ваша модель явно имеет тенденцию к обмундированию, так как вы получили 100%, когда подходите к данным обучения. попробуйте отрегулировать параметр модели svm, применить предварительную обработку данных, особенно стандартизацию, чтобы снизить вашу пригодность к обучению и (надеюсь) ваши независимые тестовые данные. когда две точности приближаются, модель будет действительна.

+0

Хорошо. Я хочу убедиться, что 1. моя классификация уже правильная (потому что дает 100% при подготовке данных, используемых для тестирования)? 2. Должен ли я использовать сбалансированное количество данных обучения и данных тестирования? (это также проблема?). 3. Что означает u, чтобы скорректировать параметр модели? (Do u означает, что я должен попробовать другое ядро ​​и установить параметр? Или есть другой параметр? 4. Если бы я использовал libsvm, это даст лучший результат? Извините за многие вопросы, потому что я новичок в этой области. спасибо – user2157806

+0

Если вы используете пакет libsvm, вы можете посмотреть руководство для начинающих. http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf что будет особенно полезно, особенно обратите внимание на технику «поиска сетки». 100% с данными тренировки ничего не значат, кроме возможности переобучения. Важным является коррекция% для независимых тестовых данных и данных перекрестной проверки. Я не уверен, что балансировка будет проблемой, поскольку она сильно зависит от конкретной проблемы. – user2194365

Смежные вопросы