У меня есть 100 файлов, которые я хочу объединить на основе mir_seq
в файлах. Выходом должен быть один файл, который содержит mir_seq
и столбец freq
из исходных файлов.Объединить файлы на основе столбцов
файлы выглядеть следующим образом:
file1:
mir_seq seq name freq mir start end mism add t5 t3 s5 s3 DB ambiguity
hsa-miR-143-3p_TGAGAAGAAGCACTGTAGCTCTT TGAGAAGAAGCACTGTAGCTCTT seq_100006_x0 0 hsa-miR-143-3p 61 81 6AT u-TT 0 0 AGTCTGAG GCTCAGGA miRNA 1
hsa-miR-10a-5p_GACCCTGTAGATCCGAATTTGTA GACCCTGTAGATCCGAATTTGTA seq_100012_x1 1 hsa-miR-10a-5p 22 43 1GT u-A 0 u-G TATATACC TGTGTAAG miRNA 1
hsa-miR-10a-5p_GACCCTGTAGATCCGAATTTGTG GACCCTGTAGATCCGAATTTGTG seq_100013_x54 54 hsa-miR-10a-5p 22 44 1GT 0 0 0 TATATACC TGTGTAAG miRNA 1
file2:
mir_seq seq name freq mir start end mism add t5 t3 s5 s3 DB ambiguity
hsa-miR-143-3p_TGAGAAGAAGCACTGTAGCTCTT TGAGAAGAAGCACTGTAGCTCTT seq_100006_x1 1 hsa-miR-143-3p 61 81 6AT u-TT 0 0 AGTCTGAG GCTCAGGA miRNA 1
hsa-miR-10a-5p_GACCCTGTAGATCCGAATTTGTA GACCCTGTAGATCCGAATTTGTA seq_100012_x0 0 hsa-miR-10a-5p 22 43 1GT u-A 0 u-G TATATACC TGTGTAAG miRNA 1
hsa-miR-10a-5p_GACCCTGTAGATCCGAATTTGTG GACCCTGTAGATCCGAATTTGTG seq_100013_x24 24 hsa-miR-10a-5p 22 44 1GT 0 0 0 TATATACC TGTGTAAG miRNA 1
hsa-miR-1296-5p_TTAGGGCCCTGGCTCCATCT TTAGGGCCCTGGCTCCATCT seq_100019_x17 17 hsa-miR-1296-5p 16 35 0 0 0 u-CC TGGGTTAG CTCCTTTA miRNA 1
Файлы называются так и различаются только в той части, между _
и .txt.mirna
и является раздел:
Miraligner_94G.txt.mirna
Miraligner_944G.txt.mirna
Выходные файлы должны быть что-то вроде этого:
mir_seq freq_94G freq_944G freq_912R
hsa-miR-143-3p_TGAGAAGAAGCACTGTAGCTCTT 0 12 55
Я не понимаю вопрос. Вы хотите иметь один файл со всеми строками всех файлов, объединенных в один файл, путем фильтрации столбцов 'mir_seq' и' freq'? Или вы хотите также фильтровать 'mir_seq' каким-то фильтром? –
Это довольно широкий. Что же касается снятия ненужных аспектов вопроса и работы с простым вводом с желаемым, чистым выходом. Также вы можете показать некоторые из своих попыток? – fedorqui