3

Я хочу знать, если я создаю дерево решений. Как ID3 из набора обучения и проверки, но A не работает. В то же время у меня есть другое дерево решений B также в ID3, сгенерированном из того же набора обучения и проверки, но B обрезается. Теперь я тестирую как A, так и B на будущем немаркированном тестовом наборе, всегда ли это, что обрезанное дерево будет работать лучше? Любая идея приветствуется, спасибо.Эффект обрезки дерева принятия решений

+0

Вы ищете конкретные случаи, когда обрезанное дерево может работать хуже? –

ответ

3

Я думаю, что нам нужно сделать различие понятнее: обрезают деревья всегда работают лучше на проверки набора, но не обязательно на тестирования набора (на самом деле это также равной или худшей производительности на тренировка комплект). Я предполагаю, что обрезка делается после того, как строится дерево (то есть: после обрезки) ..

Помните, что вся причина использования набора проверки, чтобы избежать переобучения над обучающим набором данными, и ключ точка здесь обобщение: мы хотим получить модель (дерево решений), которая обобщается за пределами экземпляров, которые были предоставлены в «время обучения» для новых невидимых примеров.

1

Обрезка Предполагаемый для улучшения классификации путем предотвращения переобучения. Поскольку обрезка будет происходить только в том случае, если она улучшает тариф классификации в наборе валидации, обрезанное дерево будет работать также или лучше, чем необработанное дерево во время проверки.

+0

OP никогда не упоминал перекрестной проверки, я думаю, вы имели в виду набор проверки – Amro

+0

@Amro: Правильно, при проверке, установленной во время перекрестной проверки. Я исправлю это. – Jacob

0

Плохая обрезка может привести к неправильным результатам. Хотя часто требуется желаемый размер дерева решений, вы обычно стремитесь к лучшим результатам при обрезке. Поэтому , как - это суть обрезки.

0

Я согласен с 1-м ответом от @AMRO. Post-pruning - наиболее распространенный подход к обрезке дерева решений, и это делается после того, как дерево построено. Но, Pre-pruning также можно сделать. в pre-pruning, дерево обрезается, останавливая его строительство раньше, используя заданное пороговое значение. Например, решая не разбивать подмножество обучающих кортежей на данном узле.

Тогда этот узел становится листом. Этот лист может содержать самый частый класс среди подмножества кортежей или вероятность этих кортежей.

Смежные вопросы