извлечение информации поименованных СУБЪЕКТОВ Python 2.7

У меня есть текст, который выглядит как:извлечение информации поименованных СУБЪЕКТОВ Python 2.7

"<ENAMEX TYPE="PERSON">Edward R. Kimmel</ENAMEX>, one of Admiral <ENAMEX TYPE="PERSON">Jack</ENAMEX>'s two surviving sons and..."

Я хочу вывод, как следующее:

PERSON Эдвард Р. Kimmel

ПЕРСОНА Джек

Любая идея с использованием RegEX?

Большое спасибо

источник

2016-03-22 ALS_WV

Поскольку вы используете Python, то почему бы не использовать 'ElementTree' для разбора XML? – dawg

Я рассмотрю это, чтобы найти ответ, спасибо. Я никогда не использовал его раньше! –

Вы попробовали beautifulsoup?

from bs4 import BeautifulSoup 
txt = """<ENAMEX TYPE="PERSON">Edward R. Kimmel</ENAMEX>, one of Admiral <ENAMEX TYPE="PERSON">Jack</ENAMEX>'s twosurviving sons and...""" 
soup = BeautifulSoup(txt,"html.parser") 
for i in soup.findAll(attrs={'type' : 'PERSON'}): 
    print(i.text)

источник

2016-03-22 03:29:00 KR29

Работало :)))) –

Просто используйте .findall

import re 
x = '"<ENAMEX TYPE="PERSON">Edward R. Kimmel</ENAMEX>, one of Admiral <ENAMEX TYPE="PERSON">Jack</ENAMEX>"' 
mac = [] 
mac = re.findall("TYPE=\"PERSON\">(.+?)<",x) 


for i in mac: 
    print "PERSON "+i

источник

2016-03-22 03:47:01 mkHun

извлечение информации поименованных СУБЪЕКТОВ Python 2.7

ответ

Смежные вопросы