2016-07-05 3 views
-1

Я пытаюсь преобразовать символ кодировки html как часть входной строки в UTF8 в Python. Я получаю дополнительный символ как Ã. Как избавиться от него в python.Получение дополнительного символа при преобразовании в UTF-8 Python

Пример: Я должен был получить выход как «SlimRun ®». Но я получаю SlimRun®

Я использую Methond от экранирования в HTMLparser()

ответ

0

UTF8 является многобайтовая кодирования, так что вы можете кодировать более чем 1 миллион символов. Вы должны декодировать строку, закодированную utf8:

b'SlimRun\xc2\xae'.decode('utf8') 
+0

Вот мой код. импорт SYS из HTMLparser импорта HTMLparser ч = HTMLparser() вход = "SlimRun ®" выхода = h.unescape (вход) – Rainbow

+0

С кодом я получаю юникод строку 'u'SlimRun \ xae''. – Daniel

+0

Я смог избавиться от Ã, используя raw-unicode-escape. Но теперь, когда строка имеет символ кодировки html как & # xFFFD; он преобразуется как \ ufffd. Он должен преобразовываться как . Есть идеи? – Rainbow

Смежные вопросы