Существует ecoli.ffn
файла со строками, указывающих имя генов секвенирования:извлечь каждое секвенирование данных в виде отдельного файла
$head ecoli.ffn
>ecoli16:g027092:GCF_000460315:gi|545267691|ref|NZ_KE701669.1|:551259-572036
ATGAGCCTGATTATTGATGTTATTTCGCGT
AAAACATCCGTCAAACAAACGCTGATTAAT
>ecoli16:g000011:55989:gi|218693476|ref|NC_011748.1|:1128430-1131042
GTGTACGCTATGGCGGGTAATTTTGCCGAT
>ecoli16:g000012:55989:gi|218693476|ref|NC_011748.1|:1128430-1131042
GTGTACGCTATGGCGGGTAATTTTGCCGAT
CTGACAGCTGTTCTTACACTGGATTCAACC
CTGACAGCTGTTCTTACACTGGATTCAACC
Как было показано выше, название гена находится между 1-ой и 2-ой толстой кишкой:
g027092
g000011
g000012
Я хотел бы использовать ecoli.ffn
для генерации трех файлов: g027092.txt
, g000011.txt
, g000012.txt
, содержащий каждый файл последовательности.
Например, g027092.txt
будет содержит исходные данные, но без заголовка:
$cat g027092.txt
ATGAGCCTGATTATTGATGTTATTTCGCGT
AAAACATCCGTCAAACAAACGCTGATTAAT
Как сделать это?
Hi @karakfa, можете вам немного объяснить, пожалуйста? –
Делается. Awk настолько мощный и регулярный. – Ming
Cheers @karafka !!! –