У меня есть данные, которые выглядят следующим образом:создание списка из разделенных строк
-HI5UHB101EPGLJ rank=0000024 x=1813.0 y=437.0 length=81
ACGTAGATCGTGTAGCTGAGGATGTTGACAACCATGTGGACAGAGCCTCACCATCAACAT
CCTCAGCTACACGATCTGCGT
-HI5UHB101BDVPE rank=0000032 x=451.5 y=48.0 length=73
ACGTAGATCGTCTTGAGTGATTACAGATCTAATACAATGTGCAGTCTAGCTAGATGTTAT
TCTATATATATAC
-HI5UHB101AL8KC rank=0000049 x=136.0 y=586.0 length=58
ACGTAGATCGTCTCGGCTAGTAGACGAGCCATCGTCTACTAGCCGAGACGATCTGCGT
Как сделать это в CSV лист, который выглядит следующим образом:
'HI5UHB101EPGLJ', 'rank=0000024', 'x=1813.0', 'y=437.0', 'length=81','ACGTAGATCGTGTAGCTGAGGATGTTGACAACCATGTGGACAGAGCCTCACCATCAACATCCTCAGCTACACGATCTGCGT'
'HI5UHB101BDVPE', 'rank=0000032', 'x=451.5', 'y=48.0', 'length=73', 'ACGTAGATCGTCTTGAGTGATTACAGATCTAATACAATGTGCAGTCTAGCTAGATGTTATTCTATATATATAC'
'HI5UHB101AL8KC', 'rank=0000049', 'x=136.0', 'y=586.0', 'length=58', 'ACGTAGATCGTCTCGGCTAGTAGACGAGCCATCGTCTACTAGCCGAGACGATCTGCGT'
Моя главная проблема в том, что после «длины» появляется новый символ линии (\n
), а затем сами последовательности букв имеют новые строки (\n
) между ними, когда они мне нужны. Буквенные последовательности имеют разную длину, что приводит к переменному количеству строк последовательности.
Любая помощь будет оценена по достоинству. Это будет запущено в HUGE файле.
кажется JSON более естественный формат сериализации в, нет? – roippi
@roippi: почему? CSV отлично обслуживается. –
Возможно, вам понадобятся библиотеки Biopython, в частности SeqIO: http://biopython.org/wiki/SeqIO. Я не сразу распознаю ваш формат, но если он стандартный, вполне возможно, что в этой библиотеке могут быть инструменты для чтения , –