У меня есть набор данных, которые я классифицирую их в Matlab с помощью дерева решений. Я делю множество на две части; одна обучающая информация (85%) и другие данные теста (15%). Проблема в том, что точность составляет около 90%, и я не знаю, как я могу ее улучшить. Буду признателен, если у вас есть представление об этом.Как повысить точность дерева решений в matlab
ответ
Я не думаю, что вам следует улучшить это, возможно, данные перегружены классификатором. Попробуйте использовать другие наборы данных или перекрестные проверки, чтобы увидеть более точный результат.
Кстати, 90%, если не переоборудован, является отличным результатом, возможно, вам даже не нужно его улучшать.
Вы можете изучить листья, чтобы улучшить обобщение дерева решений. Но, как уже упоминалось, точность 90% можно считать неплохой.
Я думаю, что более важным вопросом является то, что является хорошей точностью для данного домена: если вы классифицируете спам, то 90% может быть немного низким , но если вы прогнозируете цены на акции, то 90% действительно высоки!
Если вы делаете это на известном наборе домена и существуют предыдущие примеры точности классификации, которая выше, чем у вас, то вы можете попробовать несколько вещей:
90% хорошо или плохо, зависит от области данных.
Однако, возможно, классы в ваших данных перекрываются, и вы действительно не можете сделать более 90%.
Вы можете попытаться просмотреть, в каких узлах есть ошибки, и проверить, можно ли улучшить классификацию, изменив их.
Вы также можете попробовать Случайный лес.
Деревья принятия решений могут быть низкими из-за многих причин, одна из важных причин, о которых я могу думать, заключается в том, что при расчете разделения они не учитывают взаимозависимость переменных или целевой переменной от других переменных. Прежде чем приступать к улучшению производительности, следует помнить, что он не должен вызывать чрезмерную установку и быть в состоянии обобщать.
Для повышения производительности эти несколько вещей, которые можно сделать:
Variable отбор: Различные тесты можно сделать как тест мультиколлинеарности, расчет VIF, расчет IV на переменных, чтобы выбрать только несколько лучших переменных. Это приведет к повышению производительности, поскольку оно будет строго отключать нежелательные переменные.
Ensemble Learning Использование нескольких деревьев (случайных лесов) для прогнозирования результатов. Случайные леса в целом работают лучше, чем единое дерево решений, поскольку им удается уменьшить как смещение, так и дисперсию. Они менее склонны к переобучению.
K-Fold cross validation: Перекрестная проверка в данных обучения сама по себе может немного улучшить производительность модели.
Hybrid Model: Использование гибридной модели, то есть использование логистической регрессии после использования деревьев решений для повышения производительности.
- 1. Matlab: повысить точность команды «importdata»
- 2. C4.5 Алгоритм дерева решений не улучшает точность
- 3. Как использовать классификацию дерева решений Matlab?
- 4. Как повысить точность профилирования
- 5. Как повысить точность итерации?
- 6. Как повысить точность точности OCR для нейронной сети в Matlab
- 7. Как повысить точность алгоритма Eigenface?
- 8. Как повысить точность калибровки стерео?
- 9. Sphero Locator: как повысить точность
- 10. QML Timer - Как повысить точность?
- 11. Глубина дерева принятия решений
- 12. Как повысить точность местоположения GPS?
- 13. Код дерева дерева решений/алгоритм
- 14. Как повысить точность словаря PocketSphinx в android
- 15. Как повысить точность отдельных тестов в benchmark.js
- 16. Как повысить точность текста в mysql?
- 17. scikit изучить модель дерева решений
- 18. Повысить точность сверточной нейронной сети
- 19. Повысить точность IE 11 Геолокация
- 20. Повысить точность чтения QR-кода
- 21. Возврат наилучшего дерева решений из перекрестной проверки В Matlab
- 22. Подготовка дерева решений в MATLAB по данным двоичного поезда
- 23. Реализация дерева решений
- 24. Как повысить точность проверок для ошибок
- 25. Как повысить точность разрешения Coreference для чата?
- 26. Как повысить точность классификатора Naive Bayes?
- 27. Python - Как повысить точность десятичных знаков?
- 28. Deserialization дерева двоичных решений
- 29. Как повысить точность запросов Easticsearch от Python?
- 30. Как повысить точность ответа Google Geocoder?
Какова размерность набора данных? Есть ли какая-то причина, по которой вы должны использовать дерево решений, или можете ли вы изучить другие алгоритмы? –