Мои данные имеет множество категориальных особенностей. Я кодирую их, используя Dict_vectorizer.scikit- RandomForest категориальные объекты
For example df['color']=['green','blue','white']
df['size']=['small','big','medium'] .
Я использую алгоритм RandomForest. Когда я проверяю значения feature_importances, я получаю разные значения для каждой категории. зеленый = 2.45 * 10^-2 синий = 6.2 * 10^-3 и так далее.
Не все кодированные значения категорий имеют одинаковое значение характеристик_значения. Как и все категории цветов, они имеют одинаковую важность, и все значения размера имеют одинаковую важность? Есть ли способ, с помощью которого я могу явно определить feature_importances? Примечание: я понимаю
Есть ли способ использовать их как категории, а не как функцию? Подобно цвету и размеру, но их значения - это только категории. – Harshitha
Да, деревья принятия решений в 'scikit-learn' могут обрабатывать как числовые, так и категориальные данные, поэтому вам фактически не нужно бинарировать ваши данные, если вы этого не хотите. – AN6U5
Каким параметром, который я использую в деревьях решений для указания столбца, являются категориальные данные? Кроме того, RF - это несколько деревьев решений. Есть ли способ использовать категориальные данные для РФ – Harshitha