Насколько точность предсказания SVM (или других моделей ML) зависит от способа кодирования функций?

Предположим, что для данной проблемы с ML у нас есть функция, которой обладает человек. Мы можем кодировать эту информацию одним из следующих способов:Насколько точность предсказания SVM (или других моделей ML) зависит от способа кодирования функций?

Назначьте идентификатор каждому из автомобилей. Сделайте столбец «CAR_POSSESSED» и поместите идентификатор функции в качестве значения.
Сделайте столбцы для каждого автомобиля и поставьте 0 или 1 в зависимости от того, обладает ли этот автомобиль рассмотренным образцом или нет. Столбцы будут похожи на «BMW_POSSESSED», «AUDI_POSSESSED».

В моих экспериментах второй путь проводили многолучше, чем 1-ый, когда попытался с SVM.

Как способ кодирования влияет на обучение модели, и есть ли какие-то ресурсы, в которых изучается влияние кодирования? Или нам нужно делать удары и испытания, чтобы проверить, где он работает лучше всего?

источник

2015-04-08 Bit Manipulator

Проблема с первым способом заключается в том, что вы используете произвольные числа для представления функций (например, BMW = 2 и т. Д.), А SVM серьезно относятся к этим цифрам, как если бы они имели порядок: например. он может попытаться использовать случаи с CAR_OWNED> 3 для предсказания. Итак, второй способ лучше.

источник

2015-04-08 12:08:57

Ok, я тоже получил ответ. Категориальные функции должны предоставляться в логической форме, а причина - как вы сказали. Численно-значные функции предоставляются так, как есть. Благодаря! Но все еще есть какой-то ресурс, который обсуждает ** ** ** ** кодировку **? –

Глава 2.1 Категориальные Особенности:

http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf

Вы найдете много больше, если вы ищете "SVM категоричных Особенности"

источник

2015-04-10 22:40:37

Насколько точность предсказания SVM (или других моделей ML) зависит от способа кодирования функций?

ответ

Смежные вопросы