У меня есть файл, как этот маленький пример:разбора странный файл в текстовый файл
небольшой пример:
>ENSG00000003249|ENST00000002501|DBNDD1|2079
GCCGCGGCCCCCCGGTTGCTGCCCCGATGCGCTGCGCCCGGAGCCGGGGCCGAGTCGCTG
CCGCAGCTGTTGGGGCGCCCGGGCCAGGCGACGCCGCCGTCGCCCGTGCCCCTCCCAGAC
CGCACCGGCCGC
>ENSG00000048028|ENST00000003302|USP28|4669
AGTCCTGAGAGGCTGGGCCGGCGGCGGCTGCGGCGGGAGACCGGTGACCCGCGGCTGGGC
GCCTCGGCC
первая линия, которая начинается с ">"
имеет 4-х частей, разделенных "|"
а следующая строка - последовательность символов, связанных с линией, начинающейся с ">"
. Я хочу проанализировать этот файл в текстовый файл, в котором есть 5 столбцов. первые 4 столбца будут в первой строке, начинающейся с ">"
, а пятая строка - это последовательность. , например, враг последней последовательности результатов будет выглядеть так:
ENSG00000048028 ENST00000003302 USP28 4669 AGTCCTGAGAGGCTGGGCCGGCGGCGGCTGCGGCGGGAGACCGGTGACCCGCGGCTGGGCGCCTCGGCC
Я сделал этот код, но не получилось:
list = []
with open(inputfile) as f:
for line in f:
if line.startswith('>'):
parts = line.split('|')
else:
parts = sequence
list.append(parts)
infile = open('test.txt', 'w')
for item in list:
infile.write("%s\n" % item)
Это [формат FASTA] (http://bioperl.org/formats/ sequence_formats/FASTA_sequence_format), содержащий информацию о ДНК. Вы можете использовать ['BioPy.SeqIO()'] (http://biopython.org/wiki/SeqIO), или вы можете разобрать его вручную. –
Мне любопытно, почему вы хотите конвертировать один текстовый формат в другой. Вы пытаетесь передать эти данные в другую программу, которую вы не пишете? – qxz
, поэтому вы хотите переформатировать вышеприведенный текст в две строки подстрок, разделенных пробелом? – RomanPerekhrest