2

Предположим, что для данной проблемы с ML у нас есть функция, которой обладает человек. Мы можем кодировать эту информацию одним из следующих способов:Насколько точность предсказания SVM (или других моделей ML) зависит от способа кодирования функций?

  1. Назначьте идентификатор каждому из автомобилей. Сделайте столбец «CAR_POSSESSED» и поместите идентификатор функции в качестве значения.
  2. Сделайте столбцы для каждого автомобиля и поставьте 0 или 1 в зависимости от того, обладает ли этот автомобиль рассмотренным образцом или нет. Столбцы будут похожи на «BMW_POSSESSED», «AUDI_POSSESSED».

В моих экспериментах второй путь проводили многолучше, чем 1-ый, когда попытался с SVM.

Как способ кодирования влияет на обучение модели, и есть ли какие-то ресурсы, в которых изучается влияние кодирования? Или нам нужно делать удары и испытания, чтобы проверить, где он работает лучше всего?

ответ

3

Проблема с первым способом заключается в том, что вы используете произвольные числа для представления функций (например, BMW = 2 и т. Д.), А SVM серьезно относятся к этим цифрам, как если бы они имели порядок: например. он может попытаться использовать случаи с CAR_OWNED> 3 для предсказания. Итак, второй способ лучше.

+0

Ok, я тоже получил ответ. Категориальные функции должны предоставляться в логической форме, а причина - как вы сказали. Численно-значные функции предоставляются так, как есть. Благодаря! Но все еще есть какой-то ресурс, который обсуждает ** ** ** ** кодировку **? –

Смежные вопросы