У меня есть большой набор данных, на котором я запускаю алгоритм классификации k-Nearest Neighbor. Рассмотрим сценарий k = 3, у меня есть новая (неклассифицированная) точка «x», я нахожу 3 ближайших соседа n1, n2, n3.Как обрабатывать повторяющиеся точки данных в алгоритме k-Nearest Neighbor?
Проблема в том, что n1, n2, n3 имеют одинаковые функции, то есть они являются повторяющимися точками данных. В моем случае это база данных фильмов, где n1, n2, n3 - это три клиента, которые просматривали точно такие же фильмы, столько же раз.
Так что я должен учитывать их отдельно? ИЛИ следует ли рассматривать их как одну точку данных и искать еще две уникальные точки данных?
Почему вы хотите относиться к ним отдельно? Есть ли что-нибудь особенное в них? – cel
Потому что они на самом деле три разных клиента, которые могут отличаться в некоторых других атрибутах, таких как местоположение, доход, пол и т. Д. Что не рассматривается, если мы ограничиваем наш счет их просмотренной историей фильмов. – EngineeredBrain