2013-02-23 2 views
3

У меня есть диаграммы рассеяния двух переменных, например, так:Как оценить лучшую функцию фитинга для графика рассеяния в R?

x<-c(0.108,0.111,0.113,0.116,0.118,0.121,0.123,0.126,0.128,0.131,0.133,0.136) 

y<-c(-6.908,-6.620,-5.681,-5.165,-4.690,-4.646,-3.979,-3.755,-3.564,-3.558,-3.272,-3.073) 

, и я хотел бы найти функцию, которая лучше соответствует соотношению между этими двумя переменными.

Если быть точным, я хотел бы сравнить установку трех моделей: linear, exponential и logarithmic.

Я думал об установке каждой функции в мои значения, вычислял вероятности в каждом случае и сравнивал значения AIC.

Но я не знаю, как и с чего начать. Любая возможная помощь в этом была бы чрезвычайно оценена.

спасибо, что заранее.

Tina.

+0

Вы пробовали символическую регрессию с пакетом 'rgp'? Если вы включите некоторые примеры данных, мы можем попробовать их.Подробнее здесь: http://www.rsymbolic.org/projects/rgp/wiki/Symbolic_Regression – Ben

+2

Как мы можем здесь идти? Вы читали данные? Проводили ли вы какие-либо поисковые участки? Вы хотя бы знаете, как поместить линейную модель с пакетом 'lm'? Мы немного застряли на уровне без лишних бит ... – Spacedman

+0

Большое вам спасибо, я добавил пример, я знаю довольно много основ в R, но я новичок, когда речь идет об установке моделей, более сложных, чем регрессия , – user18441

ответ

4

Ниже приведен пример сравнения пяти моделей. Из-за формы первых двух моделей мы можем использовать lm, чтобы получить хорошие начальные значения. (Обратите внимание, что модели, использующие разные преобразования y, не следует сравнивать, поэтому мы не должны использовать lm1 и lm2 в качестве моделей сравнения, но только для начальных значений.) Теперь запустите nls для каждого из первых двух. После этих двух моделей мы попробуем полиномы разной степени в x. К счастью, lm и nls используют согласованные определения AIC (хотя не обязательно верно, что другие функции подгонки R-модели имеют согласованные определения AIC), поэтому мы можем просто использовать lm для полиномов. Наконец, мы построим данные и подгонки первых двух моделей.

Нижняя AIC тем лучше nls1 лучше всего lm3.2 След. nls2.

lm1 <- lm(1/y ~ x) 
nls1 <- nls(y ~ 1/(a + b*x), start = setNames(coef(lm1), c("a", "b"))) 
AIC(nls1) # -2.390924 

lm2 <- lm(1/y ~ log(x)) 
nls2 <- nls(y ~ 1/(a + b*log(x)), start = setNames(coef(lm2), c("a", "b"))) 
AIC(nls2) # -1.29101 

lm3.1 <- lm(y ~ x) 
AIC(lm3.1) # 13.43161 

lm3.2 <- lm(y ~ poly(x, 2)) 
AIC(lm3.2) # -1.525982 

lm3.3 <- lm(y ~ poly(x, 3)) 
AIC(lm3.3) # 0.1498972 

plot(y ~ x) 

lines(fitted(nls1) ~ x, lty = 1) # solid line 
lines(fitted(nls2) ~ x, lty = 2) # dashed line 

enter image description here

Добавленный несколько моделей и последующей фиксации их и измененные обозначения. Кроме того, чтобы следить за комментарием Бена Болкера, мы можем заменить AIC всюду сверху AICc из пакета AICcmodavg.

+1

, возможно, стоит рассмотреть AICc для этого небольшого набора данных ... –

+0

Большое спасибо !!! – user18441

7

Я бы начал с помощью explantory участков, что-то вроде этого:

x<-c(0.108,0.111,0.113,0.116,0.118,0.121,0.123,0.126,0.128,0.131,0.133,0.136) 
y<-c(-6.908,-6.620,-5.681,-5.165,-4.690,-4.646,-3.979,-3.755,-3.564,-3.558,-3.272,-3.073) 
dat <- data.frame(y=y,x=x) 
library(latticeExtra) 
library(grid) 
xyplot(y ~ x,data=dat,par.settings = ggplot2like(), 
     panel = function(x,y,...){ 
     panel.xyplot(x,y,...) 
     })+ 
    layer(panel.smoother(y ~ x, method = "lm"), style =1)+ ## linear 
    layer(panel.smoother(y ~ poly(x, 3), method = "lm"), style = 2)+ ## cubic 
    layer(panel.smoother(y ~ x, span = 0.9),style=3) + ### loeess 
    layer(panel.smoother(y ~ log(x), method = "lm"), style = 4) ## log 

enter image description here

выглядит как вам нужно кубическую модель.

summary(lm(y~poly(x,3),data=dat)) 

Residual standard error: 0.1966 on 8 degrees of freedom 
Multiple R-squared: 0.9831, Adjusted R-squared: 0.9767 
F-statistic: 154.8 on 3 and 8 DF, p-value: 2.013e-07 
+0

+1 Это очень хорошо, как насчет значений AIC? Метод изучения сглаживания в 'ggplot' находится здесь: http://www.ats.ucla.edu/stat/r/faq/smooths.htm – Ben

+0

Большое вам спасибо, у меня проблемы с установкой пакета сетки, я предположим, что это вы имеете в виду: http://www.stat.auckland.ac.nz/~paul/grid/grid.html (у меня есть Mac). – user18441

+0

Да. сетку Paul murrell (да благословит его). Не нужно устанавливать его, просто загрузите его, он распространяется с R, как это указано в ссылке, которую вы даете. – agstudy

0

Вы можете начать с чтения классической бумаги Box и Cox при преобразованиях. Они обсуждают, как сравнивать преобразования и как найти значимые преобразования внутри набора или семейства потенциальных преобразований. Лог-преобразование и линейная модель являются частными случаями семейства Box-Cox.

И, как сказал @agstudy, всегда указывайте данные.

Смежные вопросы