2015-05-26 4 views
0

Использование R и биокондуктора.Понимание значения покрытия RLE

Я не знаю, как понять целое РЛЭ, что вы получите от функций, таких как освещение(), например, как это

integer-Rle of length 3312 with 246 runs 
    Lengths: 25 34 249 16 7 11 16 ... 2 32 2 26 34 49 
    Values : 0 1 0 1 2 3 2 ... 1 2 1 0 1 0 

Хорошо, так я понимаю, что она представляет собой покрытие одного диапазона против других диапазонов , В этом случае читается эксперимент над заданным диапазоном. Что означают «пробежки»? Как насчет «Длина» и «Ценности»? Я думал, что, может быть, Lengths представляют собой положение, а значения представляют собой количество раз его покрытых, но тогда почему бы быть кратным одной позиции, такой как 2 выше? Почему они были не в порядке?

Я спрашиваю, потому что я использую

sum(coverage) 

сравнить охват одного диапазона на другой различную длину и мне было интересно, если это было необходимо.

ответ

2

Возможно, лучше спросить о пакетах Bioconductor на Bioconductor support site.

Интерпретация заключается в том, что существует пробег в 25 нуклеотидов с охватом 0, затем пробег 24 нуклеотидов с 1 охватом (то есть один прочтённый), затем другой пробег 249 нуклеотидов без покрытия, тогда все начинает становиться Интересно, поскольку множественные чтения перекрывают позиции. Из итоговой строки в верхней части вывода ваше чтение охватывает 3312 нуклеотидов, может быть, из одного транскрипта? Если бы вы были

plot(as.integer(coverage)) 

Вы получили бы быстрый график того, как охват изменяется по длине стенограммы.

Возможно sum(coverage) подходит; более обычной метрикой является подсчет, а не охват, например, GenomicRanges::summarizeOverlaps(), проиллюстрированный в этом DESeq2 work flow в контексте RNA-seq.

+0

хорошо, поэтому длины справа? т.е. первые 25 нуклеотидов имеют нулевые значения, тогда следующие 34 имеют считывание и т. д.? –

+0

@AD да, это так. –

0

Это может помочь понять концепцию РЛЭ: https://www.youtube.com/watch?v=ypdNscvym_E

Вот простой пример:

> x <- IRanges(start=c(-2L, 1L, 3L), 
+    width=c(5L, 4L, 6L)) 
> x 
IRanges of length 3 
    start end width 
[1] -2 2  5 
[2]  1 4  4 
[3]  3 8  6 
> coverage(x) 
integer-Rle of length 8 with 2 runs 
    Lengths: 4 4 
    Values : 2 1 

Выход означает, что первые 4 места в упаковках по 2, а следующие четыре места в одном пакете. Все места, включая 0 и ниже 0, были проигнорированы! Длина означает, что полный диапазон, на который мы смотрим, так сказать, все места вместе: 8. Прогоны представляют собой типы пакетов, которые происходят. Здесь у нас есть только перекрытия, которые включают два диапазона (пакет из двух) и перекрытия, которые на самом деле не перекрываются (один пакет).

Смежные вопросы