У меня есть почти 30 различных наборов данных. Каждое из них содержит различное количество переменных и размер составляет около 46.Расстояние и метрики между наборами данных
Я пытаюсь измерить расстояние между этими наборами данных, а не расстояние между элементами внутри каждого набора данных. Мое предложение состоит в том, чтобы найти среднее значение для каждого набора данных и использовать эвклидовое или махаланобское расстояние, чтобы найти связь и построить мою структуру.
Я уже знаю количество кластеров, так как оно определяется количеством наборов данных. Мне просто нужно найти расстояние между моими наборами данных.
Является ли способ, которым я делаю это достаточно хорошо, или мне нужно найти метрику, отличную от среднего, которая лучше представляет каждый набор данных? Соответствуют ли эти функции расстояния измерению или нет? Нужно ли делать какие-либо расчеты нормировки или несходства?
Мне больше не нужна разница между моими наборами данных. не могли бы вы указать мне больше на std distance plz? – Feras
Конечно! Взгляните на расстояние Бхаттачарьи (расстояние Махаланобиса - особый случай) и полное расстояние вариации. – seaotternerd
Дорогой @seaotternerd, могу ли я знать, если средства не равны между классами, Можем ли мы по-прежнему применять расстояние Бхаттачарьи? – Feras