2012-04-16 2 views
13

Я использую KNN для классификации рукописных цифр. Я также теперь внедрил PCA, чтобы уменьшить размерность. С 256 я пошел на 200. Но я только замечаю, что, ~ 0.10% потери информации. Я удалил 56 измерений. Разве потеря не должна быть больше? Только когда я падаю до 5 измерений, я получаю 20% -ную потерю. Это нормально?Алгоритм PCA и KNN

+0

Подобные вещи распространены во многих типах приложений. Это называется точкой уменьшения прибыли. –

ответ

6

Вы говорите, что после снятия 56 измерений вы практически не потеряли информацию? Конечно, это точка PCA! Principal Component Analysis, как указано в названии, поможет вам определить, какие измерения содержат информацию. И вы можете удалить все остальное, что делает его самой большой частью.

Я хочу, чтобы некоторые примеры, в анализе генов, я прочитал документы, где размер уменьшается с 40 000 до 100 с помощью PCA, затем они делают некоторые магические вещи и имеют отличный классификатор с 19 размерами. Это неявно говорит вам, что они потеряли практически никакой информации, когда удалили 39'900 измерений!

+2

ОК спасибо. Я немного новый для машинного обучения –

0

Это нормально, да (и, как, например, Фесвез сказал, что вы сделали). Ваш случай на самом деле является хорошим примером, где вы можете видеть, как это возможно.

Взгляните на свои данные (это всегда важно для машинного обучения, знаю ваши данные). Если у вас есть изображения с черными рукописными цифрами на белом фоне, существует высокая вероятность того, что пиксели в некоторых углах являются белыми для всех образцов (у меня было это в одном углу, когда я делал машинное обучение на письменных цифрах). Таким образом, на самом деле нет никакой информации в этом пикселе. Если вы отбросите это как вход для своего KNN или ANN или что-то еще, вы получите те же результаты.