2013-06-08 3 views
1

Нам дана матрица с двумя столбцами (образцы, условия эксперимента) и n строк (например, генов), и мы стремимся идентифицировать гены, которые значительно изменились (при определенном FDR) между двумя образцами.FDR сравнения двух векторов

Как это сделать, используя R?

Ниже приведен пример из fdrtool пакета руководства, который показывает, как вычислить FDR из вектора р-значений:

library("fdrtool") 
data(pvalues) 
fdr = fdrtool(pvalues, statistic="pvalue") 
fdr$qval # estimated Fdr values 
fdr$lfdr # estimated local fdr 

Но проблема в том, что у нас есть только два вектора наблюдений здесь, а не р -значения. Есть идеи?

Вот выборочные данные, которые могут быть использованы: foo <- matrix(runif(1000), ncol=2)

Я предполагаю, что у нас нет никакой повторности информации, р-значения и т.д. Но наверняка гены, которые имеют далеко разные значения между двумя образцами должны точно более убедительные доказательства. Есть ли способ назначить FDR в этом состоянии?

+0

вы должны добавить некоторые данные в свой вопрос, чтобы сделать его воспроизводимым. – agstudy

+0

@agstudy Вы можете использовать 'foo <- matrix (runif (1000), ncol = 2)' как данные – Ali

+1

Вы должны добавить это к вопросу. Это адекватно отражает ваши данные? Являются ли ваши данные микрочипом или это данные следующего поколения, где результат на самом деле является подсчетом? Ответ на это немного изменил ситуацию. – Dason

ответ

1

Если у вас есть один образец для каждого условия, у него нет возможности иметь значение pvalue, потому что это вероятность того, что разница между выборками, взятыми для одной совокупности, статистически различна. Но, если у вас нет реплик, нет никакого значения, нет дисперсии для каждого гена, как я понял, мы не можем оценить ошибку выборки, и поэтому нет способа отличить значение, которое вы видите от случайного значения, для обычного тест малых образцов, в качестве t-теста. Посмотрите на это, он может помочь:

http://en.wikipedia.org/wiki/P-value

http://www-stat.stanford.edu/~tibs/SAM/

Что вы можете сделать, это MA участок

http://en.wikipedia.org/wiki/MA_plot

и посмотреть на распределение ваших данных, которые являются большие различия, и выберите их. Но это не в статистической структуре анализа скорости ложных обнаружений, оно может помочь в качестве разведочного анализа, но в этом нет никакой реальной статистики. В литературе микрочип вы, вероятно, будете искать альтернативы, чтобы сделать ряд допущений и есть тест гипотезы, но я не знаю, один, чтобы указать, может быть, AFFY пакета есть один ...

enter image description here

+0

«p-values» НЕ являются «вероятностью того, что разница между выборками, взятыми для одной совокупности, статистически различна». (Считайте, что небольшое p-значение обычно считается хорошим результатом.) На самом деле это вероятность того, что вы получите эту ценность (или еще одну крайность), если образцы были из SAME. Проанализируйте свою основную статистику. Ваша интерпретация является распространенным заблуждением, но, несмотря на то, что она распространена, она очень неверна. –

Смежные вопросы