2015-11-14 2 views
0

Я пытаюсь сделать линейную регрессию с некоторыми данными, которые я только что получил, но я просто не знаю, с чего начать. Проблема для меня в том, что значения отклика (y) многомерны, как вектор.Линейная регрессия, когда значения отклика являются высокомерными

Например:

sample 1, y <- c(3,7,10,36,23), while x1 <- 3, x2 <- 2, x3 <- 12, .... 
sample 2, y <- c(4,5,13,21,9), while x1 <- 4, x2 <- 5, x3 <- 7, .... 
.... 
+0

Это не особенно ясно мне, что вы пытаетесь сделать. Одновременная линейная регрессия? Независимая линейная регрессия (как @ Pash101 делает ниже)? Что-то другое? Можете ли вы прояснить свою проблему и ожидаемый результат? –

+0

Y - это значение, которое мы получили от изображений, которые являются многомерными для каждого образца. X - некоторые геномные данные для образцов. Мы пытаемся выяснить, существует ли какая-либо корреляция между образными функциями изображения и геномными данными образца. Образцы - это опухоли у пациентов. Из-за высокой размерности образцов геномных данных (предикаты ~ 20K) сначала мы планировали сделать частичную наименьшую квадратичную регрессию, прежде чем увидели формат данных изображения, который имеет около 10 признаков. Благодаря! – user3574330

+0

Итак, у вас есть проблема 'p >> n', и вам нужно сделать выбор переменной. Мне все еще не ясно, что вы пытаетесь сделать. Я думаю, вы получите больше ответов, если перефразируете свой вопрос, уточните свои мысли и опишите, что вы уже сделали. –

ответ

0

Вы можете сделать это довольно легко в R.

df <- data.frame(c(3,4),c(7,5),c(10,13),c(36,21),c(23,9),c(3,4),c(2,5),c(12,7)) 
colnames(df) <- c("y1","y2","y3","y4","y5","x1","x2","x3") 
lmod1 <- lm(cbind(y1,y2,y3,y4,y5)~x1+x2+x3,data=df) 

#or you can combine these into a matrix 
y <- matrix(c(df$y1,df$y2,df$y3,df$y4,df$y5),ncol=5) 
x <- matrix(c(df$x1,df$x2,df$x3),ncol=3) 
lmod2 <- lm(y~x) 

Примечание - в данном примере кода оценки для x2/x3 подведет, это только потому, что там так мало наблюдений (но он должен работать для реального набора данных).

редактировать - я, вероятно, следует добавить, что такой подход будет соответствовать отдельные одномерные модели, которая предполагает независимость от y1, y2, y3 и т.д.

+0

Большое спасибо за предложение. Из-за высокой размерности образцов геномных данных (~ 20K предикатов), возможно ли это сделать для PLS? Благодаря! – user3574330

Смежные вопросы