2016-07-04 3 views
-1

У меня есть группа из 20 вопросов да/нет/нет, которые моя компания использует для оценки того, хотите ли вы предлагать цену за возможность. На сегодняшний день мы заполнили анкету 634 раза.Требуется стратегия машинного обучения

Текущий алгоритм просто делит да/(да + нет), и оценка более 50% рекомендует нам воспользоваться этой возможностью. n/a ответы не учитываются.

Мы отслеживали данные о выигрыше/проигрыше на всех занятиях, поэтому у меня есть маркированный набор данных, и я рассматриваю алгоритм контролируемого машинного обучения, чтобы заменить наш расчет сырой да/нет.

Я ищу предложенный метод контролируемого машинного обучения в Python (я больше всего знаком с SKLearn). Классификатор дерева решений?

Заранее спасибо.

+0

Наивные классификаторы Байес, деревья принятия решений или искусственные нейронные сети (я лично рекомендую это). –

+0

Зашифруйте данные и прикрепите их здесь. Вы сможете получить лучший ответ –

ответ

1

У вас есть 20 y/n ответов как функции. Пусть да - 1 и не должно быть 0. Таким образом, существует 20 двоичных функций.

У вас также есть данные целевой переменной (выигрыш/потеря). Пусть победа равна 1, а потеря равна 0. Вы можете использовать SVM/NN сразу. По моему опыту SVM и логистическая регрессия дают аналогичную точность.

Но если вы хотите, чтобы объяснить вклад каждой особенности в формировании решения, вы должны использовать наивный-Байес или дерева решений

0

Это важно знать, кто говорят Ессей и NOS, поэтому если у вас есть 10 экспертов отвечая на эти 20 вопросов с помощью yes/no/na, у вас есть состояния 10x20x3 или двоичные функции, каждый из которых имеет 60 функций.

Кроме того, вы можете использовать функции самого проекта, как если бы проект был из нефтяной промышленности или добычи или производства и т. Д. Некоторые эксперты могут быть лучше прогнозирования в одной отрасли над другими.

Для классификации вы можете попробовать случайные леса из sklearn.

Обратите внимание, что вместо классификации (маркировка, если проект преследовался или не учитывался), вы можете изменить проблему в задаче регрессии, присвоив образцам сумму прибыли или убытка, полученную компанией от преследования (- или +), или проигнорировать (0) проект.

Надеюсь, это поможет.

Смежные вопросы