2013-09-28 3 views
-2

У меня есть текст, как это:Преобразование ASCII символов в обычный текст

‘The zoom animations everywhere on the new iOS 7 are literally making me nauseous and giving me a headache,’wroteforumuser Ensorceled. 

Я понимаю, что # 8216 является ASCII character.How может я преобразовать его в нормальные символы без использования .Привернуть, который громоздкий.

+1

‘ является числовым объектом. –

+0

Является ли [это] (http://stackoverflow.com/questions/730299/replace-html-entities-with-the-corresponding-utf-8-characters-in-python-2-6) релевантным? – rlms

+0

Нет, это было задано в 08 '. Пожалуйста, подтвердите. – user2784753

ответ

3

У вас есть побег HTML там. Используйте HTMLParser.HTMLParser() class для экранирования в них:

from HTMLParser import HTMLParser 

parser = HTMLParser() 
unescaped = parser.unescape(escaped) 

Демо:

>>> from HTMLParser import HTMLParser 
>>> parser = HTMLParser() 
>>> escaped = '‘The zoom animations everywhere on the new iOS 7 are literally making me nauseous and giving me a headache,’wroteforumuser Ensorceled.' 
>>> parser.unescape(escaped) 
u'\u2018The zoom animations everywhere on the new iOS 7 are literally making me nauseous and giving me a headache,\u2019wroteforumuser Ensorceled.' 
>>> print parser.unescape(escaped) 
‘The zoom animations everywhere on the new iOS 7 are literally making me nauseous and giving me a headache,’wroteforumuser Ensorceled. 

В Python 3, HTMLParser модуль был переименован в html.parser; соответствующим образом отрегулируйте импорт:

from html.parser import HTMLParser 
Смежные вопросы