Я начал использовать python для анализа. Я хотел бы сделать следующее:Как оценить функцию плотности и рассчитать ее пики?
- Получить распределение набора данных
- Получить пики этого распределения
я использовал gaussian_kde от scipy.stats сделать оценку для функции плотности ядра. Представляет ли guassian_kde какое-либо предположение о данных?. Я использую данные, которые меняются со временем. поэтому, если данные имеют один дистрибутив (например, гауссовский), он может иметь другое распределение позже. Есть ли у gaussian_kde какие-либо недостатки в этом сценарии ?. Было предложено в question попытаться установить данные в каждом дистрибутиве, чтобы получить распределение данных. Так в чем разница между использованием gaussian_kde и ответом, указанным в question. Я использовал код ниже, мне также интересно узнать, является ли gaussian_kde хорошим способом оценки pdf, если данные будут изменены со временем?. Я знаю, что одним из преимуществ gaussian_kde является то, что он автоматически вычисляет полосу пропускания с помощью правила, как в here. Кроме того, как я могу получить его пики?
import pandas as pd
import numpy as np
import pylab as pl
import scipy.stats
df = pd.read_csv('D:\dataset.csv')
pdf = scipy.stats.kde.gaussian_kde(df)
x = np.linspace((df.min()-1),(df.max()+1), len(df))
y = pdf(x)
pl.plot(x, y, color = 'r')
pl.hist(data_column, normed= True)
pl.show(block=True)
Первые несколько предложений очень трудно понять. Вы можете быть более ясными там. Как вы думаете, что «gaussian kde» нормализует ваши данные? И почему это привело бы к одному пику? И после этого я не получаю предложение. – cel
Примите мои извинения, я перефразировал вопрос – Yasmin