2013-02-13 2 views
1

У меня около 500 последовательностей белка в формате fasta, я получил от поиска blastp. Из этих последовательностей мне нужно иметь название белка, организм, Uniprot ID и, если возможно, семейство белков, чтобы я мог построить таблицу с этой информацией.создание таблицы из последовательности fasta, python

Есть ли способ, которым я могу это сделать, используя python? некоторые функции, которые общаются с Uniprot? как я могу анализировать информацию из заголовка Fasta?

ответ

4

Вы должны взглянуть на Biopython, у которого есть парсер FASTA. После разбора вы можете использовать pandasDataFrame, чтобы построить таблицу. Без фрагмента примеров данных трудно предоставить более точный ответ, но он должен быть выполнен с примерно 5 строками кода:

from Bio import SeqIO 
with open("example.fasta", "rU") as handle: 
    print list(SeqIO.parse(handle, "fasta")) 
Смежные вопросы