2014-04-29 3 views
2

Я очень новичок в быстром и интеллектуальном анализе данных, но я попытался сделать беглый поиск того, что означают все параметры в параметрах дерева решений quickminers и не хватает. Я знаю, что такое лист и узел, и я собираюсь сосредоточиться на нескольких параметрах, но любые общие знания будут оценены. I.E. Что они все на самом деле делают? Критерий Минимального размера для разделенного минимального размера листа минимального выигрыша максимальной глубины доверияRapidminer: Объяснение параметров дерева решений

Также без использования оптимизации, является след ошибка лучшим способом получить лучший прогноз? Спасибо, S

ответ

0

Мне нравится использовать ОПЕРАТОР ОПЕРАТОРА RAPIDMINER. Это файл PDF, доступный здесь: http://rapidminer.com/documentation/

Информация в этом документе лучше, чем информация в самом приложении. Например: ... существует меньше определенного количества экземпляров или примеров в текущем поддереве . Это можно отрегулировать, используя минимальный размер для параметра split.

Скажем, ваши ярлыки «синий», «красный» и «зеленый». В дереве решений есть узел с 2 «зелеными» и 1 «синими» примерами. Если минимальный размер для разделения равен 4, то дерево решений не создаст новую ветку, потому что в узле всего три примера. Он просто согласится с тем, что, хотя ответ не совершенен, он объявит узел листом, который классифицирует примеры как все «зеленые».

минимальный размер листа аналогичен. Дерево решений, где каждая ветвь приводит к одному примеру, не очень полезна, хотя она может обеспечить наиболее точную классификацию. Поэтому вы можете установить минимальное количество примеров, классифицированных листом в дереве. Хорошее значение зависит от вашего набора данных и ваших потребностей. Запустите дерево решений, и если в каждом прогоне слишком много листьев с несколькими примерами, увеличьте значение этого параметра.

критерий и минимальный выигрыш несколько сложнее. Критерий - это алгоритм, который будет использовать RapdMinder, чтобы судить о том, насколько хороши дерево решений и его узлы. Есть несколько стратегий, и я не знаю много о том, как они работают. Критерий - это одна из тех вещей, которые RapidMiner использует, чтобы решить, нужно ли создавать поддерево под узлом или объявить узел листом. Он также должен контролировать, сколько филиалов поддерево расширяется от корневого узла поддерева.

Есть больше вариантов деревьев решений, и каждый вид дерева решений может иметь разные параметры. Я узнал о них, прочитав описание параметра, предположив, что произойдет, если я изменю параметр, а затем создаю новое дерево решений, чтобы убедиться, что моя гипотеза правильная. Экспериментируйте и получайте удовольствие!

Смежные вопросы