Получение дополнительного символа при преобразовании в UTF-8 Python

-1

Я пытаюсь преобразовать символ кодировки html как часть входной строки в UTF8 в Python. Я получаю дополнительный символ как Ã. Как избавиться от него в python.Получение дополнительного символа при преобразовании в UTF-8 Python

Пример: Я должен был получить выход как «SlimRun ®». Но я получаю SlimRunÂ®

Я использую Methond от экранирования в HTMLparser()

источник

2016-07-05 Rainbow

UTF8 является многобайтовая кодирования, так что вы можете кодировать более чем 1 миллион символов. Вы должны декодировать строку, закодированную utf8:

b'SlimRun\xc2\xae'.decode('utf8')

источник

2016-07-05 18:03:23 Daniel

Вот мой код. импорт SYS из HTMLparser импорта HTMLparser ч = HTMLparser() вход = "SlimRun ®" выхода = h.unescape (вход) – Rainbow

С кодом я получаю юникод строку 'u'SlimRun \ xae''. – Daniel

Я смог избавиться от Ã, используя raw-unicode-escape. Но теперь, когда строка имеет символ кодировки html как & # xFFFD; он преобразуется как \ ufffd. Он должен преобразовываться как . Есть идеи? – Rainbow

Получение дополнительного символа при преобразовании в UTF-8 Python

ответ

Смежные вопросы