2015-03-31 3 views
1

У меня есть файл, полный идентификаторов Uniprot. Теперь я ищу способ загрузить всю XML-запись для каждого из ID.Biopython: Получение XML-файла путем присоединения протеина

+0

Что вы пытаетесь? Пожалуйста, обратитесь к http://stackoverflow.com/help/how-to-ask, это позволит нам лучше помочь вам –

ответ

0

Сначала вы создаете URL-адрес для каждого идентификатора UniProt для получения определения XML для белка.

uniprot_id = 'P12345' 
url = 'http://www.uniprot.org/uniprot/'+uniprot_id+'.xml' 

Вы можете построить URL, чтобы получить различные форматы данных, изменив конец строки, т.е. '.txt, .fasta, .rdf. В этом link приведены более подробные сведения о шаблонах доступа uniprot.

Далее вы открываете URL-адрес и обрабатываете результат с помощью BioPython. Кроме того, вы можете сохранить строку XML на диск.

import urllib2 
from Bio import SeqIO 

uniprot_id = 'P12345' 
url = 'http://www.uniprot.org/uniprot/'+uniprot_id+'.xml' 
s = urllib2.urlopen(url) 
contents = s.read() 

record = SeqIO.read(contents, 'uniprot-xml') 
+0

Большое спасибо. Я обнаружил, что на самом деле могу просто загрузить текстовый файл в Uniprot и загрузить все результаты в xml-формате. Иногда ответ просто слишком легко думать об этом сразу. – Rima

Смежные вопросы