2015-02-23 4 views
1

У меня есть почти 30 различных наборов данных. Каждое из них содержит различное количество переменных и размер составляет около 46.Расстояние и метрики между наборами данных

Я пытаюсь измерить расстояние между этими наборами данных, а не расстояние между элементами внутри каждого набора данных. Мое предложение состоит в том, чтобы найти среднее значение для каждого набора данных и использовать эвклидовое или махаланобское расстояние, чтобы найти связь и построить мою структуру.

Я уже знаю количество кластеров, так как оно определяется количеством наборов данных. Мне просто нужно найти расстояние между моими наборами данных.

Является ли способ, которым я делаю это достаточно хорошо, или мне нужно найти метрику, отличную от среднего, которая лучше представляет каждый набор данных? Соответствуют ли эти функции расстояния измерению или нет? Нужно ли делать какие-либо расчеты нормировки или несходства?

ответ

0

Независимо от того, хорошо ли вы смотрите на расстояния средств ваших наборов данных, полностью зависит от ваших наборов данных. В общем случае среднее значение составляет , чувствительное к выбросам. Это означает, что если ваши наборы данных имеют несколько значений, которые сильно отличаются от других, они будут иметь заметное влияние на среднее значение (т. Е. Они будут тянуть его к ним). Это может быть желательным поведением, но обычно это не так. Таким образом, если значения, которые вы принимаете во внимание, достаточно похожи, значит, это хороший вариант.

Вот некоторые другие варианты:

одноканальный - расстояние между двумя кластерами расстояние между точками в двух кластерах, которые находятся ближе друг к другу. Это полезно, если вы заботитесь о «наилучшей» близости, т. Е. Насколько похожи наборы данных.

An illustration of single-link distance.

Complete-ссылка - это расстояние между двумя кластерами представляет собой расстояние между точками в двух кластерах, которые дальше друг от друга. Это полезно, если вы заботитесь о «наихудшей» близости, то есть о том, насколько могут отличаться наборы данных.

An illustration of complete-link distance

Изображения из this website.

Другим потенциально важным соображением является то, что вычисление среднего значения обычно может выполняться быстрее, чем одноканальная или полная связь.

Есть более сложные показатели расстояния, которые вы могли бы использовать, если важно получить информацию о количестве вариаций в ваших наборах данных. Например, вы можете измерить расстояние в стандартных отклонениях (хотя это становится сложно, потому что разные наборы данных будут иметь разные стандартные отклонения).

+0

Мне больше не нужна разница между моими наборами данных. не могли бы вы указать мне больше на std distance plz? – Feras

+0

Конечно! Взгляните на расстояние Бхаттачарьи (расстояние Махаланобиса - особый случай) и полное расстояние вариации. – seaotternerd

+0

Дорогой @seaotternerd, могу ли я знать, если средства не равны между классами, Можем ли мы по-прежнему применять расстояние Бхаттачарьи? – Feras

Смежные вопросы