2014-12-11 2 views
0

Я только начал работать с Weka, и я не могу понять, когда мои деревья решений слишком глубоки. У меня есть набор из 423 функций, которые, насколько я знаю, случайным образом выбираются для каждой цели. Таким образом, эти подмножества функций генерируют ветви или потоки с листьями решений, которые, как представляется, не являются общими, на самом деле они слишком специфичны, поскольку они применяются только к одному или двум случаям всех случаев в корпусе, например, no (2/0), да (1/0). Я считаю, что это не обобщение хорошо, и, возможно, это связано с тем, что деревья решений слишком глубокие. Итак, мой вопрос, который должен быть maxDepth дерева? Как узнать, когда дерево слишком глубокое? Я пробовал, но менял maxDepth на 10, и все же листья содержат решения, основанные на нескольких случаях. Кроме того, по умолчанию Weka генерирует 10 деревьев, и я задаюсь вопросом, приведет ли установка большего количества деревьев к лучшим результатам. Я читал, что случайный лес хорошо работает с 100 300 или даже 500 деревьями, хотя я не знаю, будет ли это работать для набора из 423 функций. Наконец, я хотел бы знать, что означает «1» в этом решении: «нет (632/1)». Означает ли это, что 632 были правильно классифицированы как «нет», но один был классифицирован как «да», хотя это было «нет»? Является ли это «1» ложным положительным? Спасибо за помощь!WEKA - RandomForest, как узнать, когда дерево слишком глубокое?

ответ

1

Лучшее, что можно попробовать в таком сценарии, - это выполнить поиск по сетке по параметрам. Таким образом, вы можете определить метрику производительности и узнать ее значение для разных параметров. Это будет полезно для определения оптимальной настройки параметров. Также попробуйте рассчитать этот показатель производительности в наборе проверки, а не в наборе обучения.

Смежные вопросы