2017-02-04 3 views
0

Я побежал C4.5 Алгоритм обрезки в Weka с использованием 10-кратной проверки креста. Я заметил, что безупречное дерево имеет более высокую точность тестирования, чем обрезанное дерево. Я не мог понять причину того, почему обрезка дерева не улучшала точность тестирования?C4.5 Алгоритм дерева решений не улучшает точность

ответ

1

Обрезка уменьшает размер дерева решений, который (в общем) снижает точность обучения, но повышает точность при тестировании (невидимых) данных. Обрезка помогает смягчить переобучение, когда вы достигнете идеальной точности данных обучения, но модель (т. Е. Дерево решений) терпит неудачу, когда он видит невидимые данные.

Таким образом, обрезка должна улучшить точность тестирования. С вашего вопроса трудно сказать, почему обрезка не улучшает точность тестирования.

Однако вы можете проверить точность своего обучения. Просто проверьте, уменьшает ли обрезка точность обучения или нет. Если нет, то проблема находится где-то в другом месте. Вероятно, тогда вам нужно подумать о количестве функций или размере набора данных!

+0

Спасибо! Я проверил, что обрезка снижает точность тренировки. Любые предложения о том, как двигаться вперед? – Dan

+0

Является ли это потому, что мое ненарушенное дерево перерабатывает данные? Будет ли больше данных улучшать производительность восходящего дерева? Моя точность тестирования до неуправляемой составляла около 98%, что уменьшилось до 97% для обрезанного – Dan

+0

обрезанное дерево должно иметь более высокую точность по сравнению с тестовыми данными, но поскольку после обрезки вы не получаете улучшенной производительности, вы можете попробовать, рассмотрев дополнительные данные о тренировках. Случай может быть немного исключительным, но в целом обрезанное дерево должно работать лучше, чем необработанное дерево над тестовыми экземплярами. –

Смежные вопросы