2013-04-08 3 views
0

У меня есть набор многомерных экземпляров, и мне нужно извлечь представительский набор из этих экземпляров; например, если у меня есть 100 000 многомерных экземпляров, я хочу извлечь 1000 экземпляров, которые будут представлять собой исходный дистрибутив. Я использовал Latin Hypercube Sampling и Random Sampling для извлечения двух репрезентативных наборов, и теперь я хочу проверить, насколько коррелирует эти два репрезентативных набора с исходным набором.Сравнение многомерных распределений

Если я уточню;

У меня 100000 многомерные экземпляры (назовем его А)

Я получаю две репрезентативные образцы от «A» (каждый набор будет иметь 1000 экземпляров; давайте называть эти два множества В и С)

I хотите проверить, сохраняет ли «B» и «C» распределение оригинала «A».

Большое спасибо!

+0

Я рекомендую http://stats.stackexchange.com/ для этого вопроса – Bitwise

ответ

1

Это скорее вопрос статистики, но вот схема. Обычно вы должны использовать Chi-squared тест для сравнения дистрибутивов. Основные шаги заключаются в следующем.

  1. Бин каждый из наборов данных. Попытайтесь настроить бункеры так, чтобы в каждом ящике было по крайней мере 5 или более выборок. (Используйте те же ячейки для всех наборов данных).

  2. Используйте большой образец «А», чтобы определить ожидаемое количество выборок (назовите его f_e) в каждом бункере. (BTW). Обратите внимание, что f_e для любого конкретного бункера будет 1/100 выборок номеров в этом конкретном бункере, так как образец A содержит в 100 раз больше точек данных B или C).

  3. Чтобы проверить один из образцов (скажем, B) вычислить сумму: S = сумма по всем бункерах (f_o - f_e)^2/Fe, где f_o является наблюдаемая частота в бункере.

  4. Эта сумма представляет собой переменную Chi-squared со степенями свободы, которая меньше, чем общее количество используемых вами ящиков.

  5. Рассчитать 1 - chi2cdf (S, dof). Это вероятность того, что сумма, большая или большая, чем та, которую вы получили (S), могла произойти исключительно из-за случайных вариаций (то есть, даже если распределение было идентичным). Таким образом, небольшой результат (близкий к 0) означает, что распределение, вероятно, будет отличаться, а большой результат (близкий к 1) означает, что они вряд ли будут существенно отличаться.

Существует, вероятно, библиотечная функция для выполнения всех вышеперечисленных задач. IDK, поскольку я долгое время не использовал статистические библиотеки.

+0

Спасибо Стюарту за ответ! Проблема в том, что эти экземпляры многомерны, так что, по-вашему, я могу использовать один и тот же метод для сравнения этих образцов с исходной совокупностью? –

+0

Да, он будет работать в мультивариантном случае. Это больше усилий, чтобы «бин» данных в многомерном случае, но это единственное различие. – Stuart

Смежные вопросы