Алгоритм PCA и KNN

Я использую KNN для классификации рукописных цифр. Я также теперь внедрил PCA, чтобы уменьшить размерность. С 256 я пошел на 200. Но я только замечаю, что, ~ 0.10% потери информации. Я удалил 56 измерений. Разве потеря не должна быть больше? Только когда я падаю до 5 измерений, я получаю 20% -ную потерю. Это нормально?Алгоритм PCA и KNN

источник

2012-04-16 Test Test

Подобные вещи распространены во многих типах приложений. Это называется точкой уменьшения прибыли. –

Вы говорите, что после снятия 56 измерений вы практически не потеряли информацию? Конечно, это точка PCA! Principal Component Analysis, как указано в названии, поможет вам определить, какие измерения содержат информацию. И вы можете удалить все остальное, что делает его самой большой частью.

Я хочу, чтобы некоторые примеры, в анализе генов, я прочитал документы, где размер уменьшается с 40 000 до 100 с помощью PCA, затем они делают некоторые магические вещи и имеют отличный классификатор с 19 размерами. Это неявно говорит вам, что они потеряли практически никакой информации, когда удалили 39'900 измерений!

источник

2012-04-18 13:30:20 Fezvez

ОК спасибо. Я немного новый для машинного обучения –

Это нормально, да (и, как, например, Фесвез сказал, что вы сделали). Ваш случай на самом деле является хорошим примером, где вы можете видеть, как это возможно.

Взгляните на свои данные (это всегда важно для машинного обучения, знаю ваши данные). Если у вас есть изображения с черными рукописными цифрами на белом фоне, существует высокая вероятность того, что пиксели в некоторых углах являются белыми для всех образцов (у меня было это в одном углу, когда я делал машинное обучение на письменных цифрах). Таким образом, на самом деле нет никакой информации в этом пикселе. Если вы отбросите это как вход для своего KNN или ANN или что-то еще, вы получите те же результаты.

источник

2012-04-26 21:02:16 kratenko

Алгоритм PCA и KNN

ответ

Смежные вопросы