2016-02-19 3 views
1

Предположат, вместо того, чтобы метки уже присвоенные экземпляры, я вместо этого написать детерминированную функцию из экземпляров на этикетки, что говорит,Binary Классификация

«Если Экземпляр удовлетворяют некоторое условие, маркировать это 0. В противном случае, пометьте его 1. "

Затем я запускаю анализ ROC в результате набора экземпляров и меток.

Может кто-нибудь сказать мне, что именно, я сделал? Я просто проверяю дискриминационную способность моей функции как классификатора?

Я немного смущен, так как в этом случае я назначаю ярлыки. Я не предполагаю, что они даны и пытаются изучить классификатор, как таковой.

ответ

1

Что вы сделали, довольно обычное в машинное обучение. Вам дается неизвестный стохатический процесс f: IR^m -> IR^n и далее какая-то интересная информация (обозначается метками), которая задается как функция результатов n, то есть g: IR^n -> {0,1}.

Теперь вас интересуют только эти ярлыки, и поэтому вы не беспокоитесь о том, чтобы предсказать исходный процесс f - что сложнее, поскольку оно многозначно. Скорее всего, вы рассматриваете только сложный процесс

h: IR^m -> {0,1}, h = g o f 

и попытайтесь выполнить двоичную классификацию этого процесса.

В некотором смысле это делается с использованием любого набора данных бинарной классификации. Всегда можно конструировать - иногда искусственно - промежуточные переменные, а затем сопоставлять их на двоичном результирующем множестве (либо через известное отображение, как в вашем случае, либо через сопоставление до и после вывода). Рассмотрим, например, многослойные нейронные сети: скрытые слои можно рассматривать как промежуточные переменные. Аналогично, для регрессии главных компонентов входные переменные сначала линейно преобразуются, т. Е. Применяется детерминированное отображение, и впоследствии получается более простой случайный процесс.


EDIT: Многое зависит от маркировки, которую вы применяете. Если это «естественное» отображение из промежуточных переменных в {0,1}, т. Е. Одно, которое непосредственно классифицирует количество, которое вы ищете и которое уникально определено вашей установкой, просто продолжайте. Однако у меня создается впечатление, что вы не совсем уверены в качестве своего картографирования. В этом случае я бы воздержался от влияния на метод машинного обучения с помощью вашего картографирования и модели непосредственно искомого количества ... может быть, вы можете немного подробнее рассказать о своей настройке, тогда мы можем продолжить здесь.

+0

Это отличный ответ, и я буду его продвигать, есть только одна вещь, которую я не понимаю: в моем случае, как мне дать неизвестный случайный процесс, если я написал экземпляр отображения детерминированной функции для ввода? Другими словами, как этот процесс * неизвестен *? Разве это не было бы так, если бы у меня было, на самом деле, множество экземпляров и связанных меток, а _hadn't_ сгенерировал их сам, используя эту функцию? – roccomay

+0

@roccomay: то, что неизвестно и стохастически, является основным процессом, сама маркировка детерминирована в вашем случае. Теперь состав неизвестного стохастического процесса и детерминированная функция (вообще) снова представляет собой неизвестный случайный процесс, но который, мы надеемся, легче объяснить. Я добавлю несколько практических советов к моему ответу. – davidhigh

Смежные вопросы