2015-01-27 2 views
3

Я скачал GSE60341_series_matrix.txt.gz нашел here и когда я прочитал его в таблицу R, как,Чтение матрицы серии должным образом в R

x <-read.table("GSE60341_series_matrix.txt", fill = TRUE) 

я получаю всю информацию в строках. Другими словами, я получаю матрицу размером (42977 строк и 3 столбца), тогда как число образцов должно быть равно 1951. Так что я должен получить таблицу из строк 1951 и (несколько k столбцов, представляющих каждый образец).

Открытие текстового файла получает меня,

sapiens" "Homo sapiens" "Homo sapiens" "Homo sapiens" "Homo sapiens" "Homo sapiens" "Homo sapiens" "Homo sapiens" "Homo sapiens" "Homo sapiens" "Homo sapiens" "Homo sapiens" "Homo sapiens" "Homo sapiens" "Homo sapiens" "Homo sapiens" "Homo sapiens" "Homo sapiens" "Homo sapiens" "Homo sapiens" 
!Sample_title "20120811_NC18_NC18_01" "20120811_NC18_NC18_02" "20120811_NC18_NC18_03" "20120811_NC18_NC18_04" "20120811_NC18_NC18_05" 
    !Sample_characteristics_ch1 "stimulation: Unstim" "stimulation: Activated" "stimulation: IFNb" "stimulation: Unstim" "stimulation: Activated" "stimulation: IFNb" "stimulation: Unstim" "stimulation: Activated" "stimulation: IFNb" "stimulation: Unstim" "stimulation: Activated" "stimulation: IFNb" "stimulation: Unstim" "stimulation: Activated" "stimulation: IFNb" "stimulation: Unstim" "stimulation: Activated" "stimulation: IFNb" "stimulation: Unstim" "stimulation: Activated" 

"lane: 9" "lane: 11" "lane: 12" "lane: 1" "lane: 2" "lane: 3" "lane: 4" "lane: 5" "lane: 6" "lane: 7" "lane: 8" "lane: 9" "lane: 10" "lane: 11" "lane: 12" "lane: 1" "lane: 2" "lane: 3" 

Информация в категориях (lane, stimulation, Sample_title) сцепляются как строки, но я хочу, чтобы они были в столбцах. Могу ли я иметь таблицу, где строки представляют образцы и столбцы, например, [Sample_title, stimulation]?

ответ

5

read.table используется для чтения общего формата таблицы ASCII, этот файл находится в специальном формате, используемом NCBI Gene Expression Omnibus (GEO).

Вот что вам нужно сделать:

  1. Установите пакет GEOQuery для чтения GEO файлов, вставив этот код в R:

    source("http://bioconductor.org/biocLite.R") 
    biocLite("GEOquery") 
    
  2. Загрузите пакет в память с этой линией :

    library("GEOquery") 
    
  3. Редактировать следующую строку, д путь от вашей рабочей директории к файлу в кавычках, чтобы прочитать данные в память как объект gse:

    gse=getGEO(filename="~/Downloads/GSE60341_series_matrix.txt.gz") 
    
  4. Теперь, если вы запустите View(gse) вы увидите отформатированную таблицу с 1950 строками GSE.

    За дополнительной информацией обращайтесь к GEOquery Documentation.

+0

Хороший ответ, но вы можете использовать опцию getGPL = FALSE, если вы выберете опцию имени файла в getGEO. В противном случае функция попытается загрузить соответствующий файл GPL, который, скорее всего, не удастся (по моему опыту). –

Смежные вопросы