2009-04-08 2 views
13

У меня есть HTML текст, как это:Заменить HTML объекты с соответствующими UTF-8 символов в Python 2.6

<xml ... > 

и я хочу, чтобы преобразовать его в нечто читаемом:

<xml ...> 

Любой простой (и быстрый) способ сделать это в Python?

+1

Я думаю, что вопрос является дубликатом этого: http://stackoverflow.com/questions/57708/convert-xml-html-entities-into-unicode-string-in-python –

+0

Возможный дубликат [Декодирование HTML-объектов в строке Python?] (http://stackoverflow.com/questions/2087370/decode-html-entities-in-python-string) – csl

ответ

21

http://docs.python.org/library/htmlparser.html

>>> import HTMLParser 
>>> pars = HTMLParser.HTMLParser() 
>>> pars.unescape('&copy; &euro;') 
u'\xa9 \u20ac' 
>>> print _ 
© € 
+2

-1 потому что: «Устарел с версии 2.6» – webjunkie

+0

webjunkie: исправлена ​​ссылка. – vartec

+0

unescape - это только внутренняя функция HTMLParser (и это не задокументировано в вашей ссылке). однако я мог бы использовать реализацию. 10x много – Alexandru

1

Существует функция here, что делает его, как связанные с поста Фред указал. Скопировано здесь, чтобы облегчить ситуацию.

Кредит Фреду Ларсону для связи с другим вопросом на SO. Кредит dF за размещение ссылки.

Смежные вопросы