2015-06-21 4 views
-1

Каков наилучший способ использования номинальной стоимости вместо реальных или булевых для включения в подмножество вектора признаков для машинного обучения?Номинальный ценный набор данных в машинном обучении

Следует ли сопоставлять каждое номинальное значение с реальной стоимостью?

Например, если я хочу, чтобы сделать свою программу, чтобы узнать прогностическую модель для пользователей веб-Сервье, чьи входные функции могут включать в себя

{пол (булево), возраст (реальный), работа (номинальная)}

где зависимая переменная может быть номером входа в веб-сайт.

переменная работа может быть один из

{PROGRAMMER, ХУДОЖНИК, гражданского служащего ...}.

Должен ли я отображать PROGRAMMER на 0, ARTIST на 1 и т. Д.?

+0

Не существует неотъемлемой причины для кодирования категорий как чисел для алгоритма машинного обучения. Более того, упорядочение чисел может смутить вас или других, считая, что для этого есть смысл. В следующих вопросах, пожалуйста, попробуйте форматировать вещи более тщательно. –

+0

Благодарим вас за советы. –

ответ

1

Сделайте одноразовое кодирование, если угодно.

Если ваши данные имеют категориальные атрибуты, рекомендуется использовать алгоритм, который может иметь дело с такими данными, без использования кодировки, например, деревьев принятия решений и случайных лесов.

+0

Могу ли я применять алгоритмы на основе нейронной сети к моей проблеме, когда нужно учитывать категориальные атрибуты? –

+0

Дерево решений может быть тем, что я должен использовать вместо нейронной сети. –

0

Если вы читали книгу под названием «Machine Learning с искрой», автор написал,


Категориальные особенности

Категориальные функции не могут быть использованы в качестве входных данных в сыром виде, так как они не номера; вместо этого они являются членами набора возможных значений, которые может принимать переменная. В примере, упомянутом ранее, занятие пользователя - это категориальная переменная, которая может принимать значение ученика, программиста и т. Д.

:

Для преобразования категориальные переменные в числовом представлении, мы можем использовать общий подход, известный как 1-из-к кодированию. Такой подход, как кодирование 1-к-k , требуется для представления номинальных переменных таким образом, который имеет смысл для заданий обучения . Порядковые переменные могут использоваться в их исходной форме, но часто кодируются так же, как и номинальные переменные.

:


У меня была точно такая же мысль.

Я думаю, что если есть значимая (хорошо продуманная) функция преобразования, которая отображает категориальные (номинальные) значения в реальные значения, я могу также использовать алгоритмы обучения, которые принимают только числовые векторы.

На самом деле я сделал несколько проектов, в которых мне приходилось делать это, и не возникало вопросов, связанных с работой системы обучения.

Кому-то, кто голосовал против моего вопроса, , пожалуйста, отмените оценку.

+0

Но я сомневаюсь, что отображение реального значения в категориальную функцию может привести к ошибке в корреляционном приближении. –

+0

Например, отображение 0 в TEACHER и 10 в PROGRAMMER может генерировать ложную гипотезу о том, что работа и вес соотносятся друг с другом. –

Смежные вопросы