Моя строка Niệm Bồ Tát (Thiá»n sÆ° Nhất Hạnh)
и я хочу расшифровать его Niệm Bồ Tát (Thiền sư Nhất Hạnh)
я вижу на этом сайте может сделать это http://www.enderminh.com/minh/utf8-to-unicode-converter.aspxPython Как исправить сломанную кодировку utf-8?
и я начинаю пробовать на Python
mystr = '09. Bát Nhã Tâm Kinh'
mystr.decode('utf-8')
, но на самом деле это не правильно, потому что Исходная строка - utf-8, но строка show не является ожидаемым результатом.
Примечание: это вьетнамский персонаж.
Как разрешить этот случай? Это Windows Unicode или что-то еще? Как определить кодировку здесь. Заранее спасибо
выглядит, как он был закодирован как 'UTF-8' но интерпретируется как 'Latin-1'. – ch3ka
'>>>« Niệm Bồ Tát (Thiền sư Nhất Hạnh) ». Encode ('utf-8'). Decode ('latin-1')' '' Niá »\ x87m Bá» \ x93 Tát (Thiá »\ x81n sÆ ° NhẠ¥ t Hạnh) '' довольно близко ... – ch3ka
@ ch3ka, его фактически cp1252, надмножество латинского-1 –