Заменить HTML объекты с соответствующими UTF-8 символов в Python 2.6

У меня есть HTML текст, как это:Заменить HTML объекты с соответствующими UTF-8 символов в Python 2.6

&lt;xml ... &gt;

и я хочу, чтобы преобразовать его в нечто читаемом:

<xml ...>

Любой простой (и быстрый) способ сделать это в Python?

источник

2009-04-08 Alexandru

Я думаю, что вопрос является дубликатом этого: http://stackoverflow.com/questions/57708/convert-xml-html-entities-into-unicode-string-in-python –

Возможный дубликат [Декодирование HTML-объектов в строке Python?] (http://stackoverflow.com/questions/2087370/decode-html-entities-in-python-string) – csl

http://docs.python.org/library/htmlparser.html

>>> import HTMLParser 
>>> pars = HTMLParser.HTMLParser() 
>>> pars.unescape('&copy; &euro;') 
u'\xa9 \u20ac' 
>>> print _ 
© €

источник

2009-04-08 14:36:29 vartec

-1 потому что: «Устарел с версии 2.6» – webjunkie

webjunkie: исправлена ссылка. – vartec

unescape - это только внутренняя функция HTMLParser (и это не задокументировано в вашей ссылке). однако я мог бы использовать реализацию. 10x много – Alexandru

Существует функция here, что делает его, как связанные с поста Фред указал. Скопировано здесь, чтобы облегчить ситуацию.

Кредит Фреду Ларсону для связи с другим вопросом на SO. Кредит dF за размещение ссылки.

источник

2009-04-08 18:09:06 Benson

Заменить HTML объекты с соответствующими UTF-8 символов в Python 2.6

ответ

Смежные вопросы