2013-11-29 5 views
1

Я рисую пробел на этом.Numpy: Сравнение двух наборов данных для фитнеса

У меня есть два набора данных:

d1 = [(x1,y1), (x2,y2)...] 
d2 = [(x1,y1), (x2,y2)...] 

Я хотел бы получить некоторый тип статистического значения, может быть что-то вроде г-значения, что говорит мне, насколько хорошо d2 подходит к d1.

+1

Неясно, какую статистическую ценность вы ожидаете. См. Http://stats.stackexchange.com/q/73805 для получения более подробной информации. – alko

+2

. Моя первая мысль была бы уменьшена хи-квадрат. Это зависит от того, как вы получили два набора. Возможно, вы захотите посмотреть на [Goodness of fit] (https://en.wikipedia.org/wiki/Goodness_of_fit). – askewchan

ответ

2

Это иждивенцы на то, что эти два вектора. вы можете быть более конкретным.

Если они являются чем-то вроде координат X-Y в декартовой системе, то корреляция расстояний, вероятно, является наиболее подходящей (http://en.wikipedia.org/wiki/Distance_correlation#Alternative_formulation:_Brownian_covariance).

Если x значение одинаково и d1 имеет ожидаемый y под каждые x значений на основе определенной модели (то есть линейная модель) и d2 имеет наблюдаемый y значения, то г Пирсона может быть хорошим выбрать scipy.stats.pearsonr (http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient).

Если оба d1 и d2 являются данные относительными частотами (наблюдаемые y подсчета событий значения x), то некоторый тип доброты согласия Пирсона может быть правильное направление идти. scipy.stats.chisquare, scipy.stats.chi2_contingency, scipy.stats.ks_2samp, чтобы назвать несколько.

Смежные вопросы