2013-12-20 3 views
2

Я ищу алгоритм машинного обучения под наблюдением, который создавал бы прозрачные правила или определения, которые могут быть легко интерпретированы человеком.Человеко-интерпретируемый контролируемый алгоритм машинного обучения

Большинство алгоритмов, с которыми я работаю (SVM, случайные леса, PLS-DA), не очень прозрачны. То есть вы вряд ли сможете обобщить модели в таблице в публикации, предназначенной для аудитории не-компьютерного ученого. Обычно авторы делают, например, опубликование списка переменных, которые важны на основе некоторого критерия (например, индекса Джини или среднего снижения точности в случае РФ), и иногда улучшают этот список, указывая, как эти переменные отличаются между рассматриваемыми классами.

То, что я ищу, является относительно простым выходом стиля «если (любая из переменных V1-V10> медиана или любая из переменных V11-V20 < 1-я квартиль) и переменная V21-V30> 3-й квартиль, то класс А ".

Есть ли такие вещи вокруг?

Чтобы немного ограничить мой вопрос: я работаю с многомерными наборами данных (от десятков тысяч до сотен тысяч часто колинирных переменных). Так, например, деревья регрессии не будут хорошей идеей (я думаю).

+2

Вы имеете в виду простой [дерево решений] (http://en.wikipedia.org/wiki/Decision_tree_learning)? –

+0

Вы хотите, чтобы решение * граница * интерпретируемо, или это достаточно, если каждое * одно решение * интерпретируется? Например, с k ближайшими соседями граница принятия решения может быть очень сложной, но вы можете объяснить каждое отдельное решение для человека, показывая ближайших k соседей (что очень легко понять). – Niki

+0

@RogerRowland хорошо, мне не хватает основ в информатике, но да, что-то в этом роде. За исключением того, что он должен работать на многомерных наборах данных и порядковых, а не непрерывных переменных. – January

ответ

2

Звучит так, будто вы описываете деревья решений. Почему регрессионные деревья не будут хорошим выбором? Возможно, это не оптимально, но они работают, и это самые интерпретируемые модели. Все, что работает с непрерывными значениями, работает с порядковыми значениями.

Существует напряженность между желанием точного классификатора и желанием простой и объяснимой модели. Вы можете построить модель леса случайного решения, и ограничить ее несколько способов, чтобы сделать его более интерпретируемым:

  • Малого максом глубина
  • Высокой минимальной информация получить
  • подрезать дерево
  • только тренироваться на " понятные»особенности
  • Квантование/раундовом решение threhsolds

модель не будет столь же хорошо, обязательно.

Смежные вопросы