Как обрабатывать повторяющиеся точки данных в алгоритме k-Nearest Neighbor?

У меня есть большой набор данных, на котором я запускаю алгоритм классификации k-Nearest Neighbor. Рассмотрим сценарий k = 3, у меня есть новая (неклассифицированная) точка «x», я нахожу 3 ближайших соседа n1, n2, n3.Как обрабатывать повторяющиеся точки данных в алгоритме k-Nearest Neighbor?

Проблема в том, что n1, n2, n3 имеют одинаковые функции, то есть они являются повторяющимися точками данных. В моем случае это база данных фильмов, где n1, n2, n3 - это три клиента, которые просматривали точно такие же фильмы, столько же раз.

Так что я должен учитывать их отдельно? ИЛИ следует ли рассматривать их как одну точку данных и искать еще две уникальные точки данных?

источник

2015-11-03 EngineeredBrain

Почему вы хотите относиться к ним отдельно? Есть ли что-нибудь особенное в них? – cel

Потому что они на самом деле три разных клиента, которые могут отличаться в некоторых других атрибутах, таких как местоположение, доход, пол и т. Д. Что не рассматривается, если мы ограничиваем наш счет их просмотренной историей фильмов. – EngineeredBrain

Это зависит от того, для чего вы его используете.

Если вы пытаетесь увидеть, кто просматривал одни и те же фильмы столько раз, то вы хотели бы рассматривать их как отдельные точки, потому что, хотя они дублированы, они все еще являются ближайшими соседями.

Если вы хотите увидеть совокупность того, сколько раз фильм просматривался, дублированные точки следует рассматривать как одну точку.

Надеется, что это помогает, --Varun

источник

2015-11-03 20:34:02

Ни является более правильным, чем другие.

Математически принято считать точки с одинаковыми характеристиками одной и той же точкой. Но тогда у него может быть несколько ярлыков и веса, так что это дороже в обращении.

Наглядно, и с точки зрения базы данных, то к ближайших соседей должны быть к объектов, независимо от того, являются ли они одинаковые или нет. Там является более одного «президента Джорджа Буша», факт. Почему merge их? Если вам нужно больше объектов, вы должны выбрать большее значение k.

Выберите, что бы вы ни пожелали, но не предполагайте, что все приняли такое же решение.

источник

2015-11-03 22:38:18

Как обрабатывать повторяющиеся точки данных в алгоритме k-Nearest Neighbor?

ответ

Смежные вопросы