2015-07-09 4 views
1

Мои данные имеет множество категориальных особенностей. Я кодирую их, используя Dict_vectorizer.scikit- RandomForest категориальные объекты

For example df['color']=['green','blue','white'] 
df['size']=['small','big','medium'] . 

Я использую алгоритм RandomForest. Когда я проверяю значения feature_importances, я получаю разные значения для каждой категории. зеленый = 2.45 * 10^-2 синий = 6.2 * 10^-3 и так далее.

Не все кодированные значения категорий имеют одинаковое значение характеристик_значения. Как и все категории цветов, они имеют одинаковую важность, и все значения размера имеют одинаковую важность? Есть ли способ, с помощью которого я могу явно определить feature_importances? Примечание: я понимаю

ответ

0

Когда вы дублируете свои категориальные данные, вы трансформируете одну функцию в несколько функций. Если категориальные значения по-разному разделяют целевую переменную, то они будут иметь различное значение. Поэтому, чтобы ответить на ваш вопрос: «Нет», бинарные данные категорически не должны иметь одинаковую особенность.

Представьте, что ваши категории «красный», «синий», «зеленый» и ваша целевая переменная являются двоичными "Is ketchup" = 0 or 1. В этом случае положительное значение для «зеленого» будет указывать на то, что оно не является кетчупом, но значение нуля не означает, что это кетчуп, поскольку он все еще может быть «синим» (и, следовательно, не кетчупом). Таким образом, важность «красной» функции выше, чем «зеленая» или «голубая» функция, так как она лучше разделяет целевую переменную «кетчуп».

Обратите внимание, что деревья принятия решений в scikit-learn могут обрабатывать как числовые, так и категориальные данные, поэтому вам не нужно бинарировать ваши данные, если вы этого не хотите.

+0

Есть ли способ использовать их как категории, а не как функцию? Подобно цвету и размеру, но их значения - это только категории. – Harshitha

+0

Да, деревья принятия решений в 'scikit-learn' могут обрабатывать как числовые, так и категориальные данные, поэтому вам фактически не нужно бинарировать ваши данные, если вы этого не хотите. – AN6U5

+0

Каким параметром, который я использую в деревьях решений для указания столбца, являются категориальные данные? Кроме того, RF - это несколько деревьев решений. Есть ли способ использовать категориальные данные для РФ – Harshitha

Смежные вопросы