2014-02-13 3 views
1

Из примечаний в Weka говорится, что minNumObj контролирует минимальное количество экземпляров на лист. Тем не менее, используя значение minNumObj = 3, Уэка производит деревуЧто делает параметр minNumObj в классификаторе J48? WEKA

Scheme:weka.classifiers.trees.J48 -U -M 3 

=== Classifier model (full training set) === 

J48 unpruned tree 
------------------ 

pension = none: bad (8.0) 
pension = ret_allw: bad (3.0/1.0) 
pension = empl_contr 
| wage increase first year = low: bad (3.0) 
| wage increase first year = medium: good (3.0) 
| wage increase first year = high: good (0.0) 
| wage increase first year = unknown: good (1.0) 
pension = unknown 
| longterm disability assistance = yes: good (4.0) 
| longterm disability assistance = no: bad (1.0) 
| longterm disability assistance = unknown: good (17.0) 

Number of Leaves :  9 

Size of the tree : 12 

, который имеет несколько листьев с только один экземпляр. Как это может случиться, учитывая, что minNumObj равно 3? Что это за настройка?

Благодарим за помощь!

ответ

3

Мое понимание заключается в том, что минимальные экземпляры на листе гарантируют, что при каждом расколе по крайней мере 2 из ветвей (но не обязательно более 2) будут иметь минимальное количество экземпляров.

Это разумный дизайн. Рассмотрим крайний случай, когда каждый узел имеет до 10 разных ветвей. Это потребовало бы, чтобы родительский узел имел как минимум в 10 раз минимальное количество экземпляров на лист для ветвления! Учитывая, что данные, вероятно, будут неравномерно распределены между филиалами, мы, вероятно, больше смотрим в порядке 50 раз.

Еще один способ взглянуть на то, что ветви - это способ выделения данных. Разделение одного экземпляра из 100 экземпляров не дает вам много информации, поэтому вы устанавливаете минимальное количество разделения. Однако, если у вас есть узел с четырьмя ветвями, а два из них заканчиваются 0 экземплярами, а остальные два - по 50, разветвление все еще создает информацию.

Таким образом, в одном предложении минимальное количество экземпляров на лист лучше рассматривать как «минимальное количество разделения данных на каждое ветвление», в случае многовариантных деревьев.

Смежные вопросы