У меня есть программа Python 2.7, которая читает текстовые сообщения iOS из базы данных SQLite. Текстовые сообщения являются строками unicode. В следующем текстовом сообщении:Python - Чтение символов Unicode от Emoji
u'that\u2019s \U0001f63b'
Апостроф представлен \u2019
, но смайлики представлены \U0001f63b
. Я искал код для рассматриваемого emoji, и это \uf63b
. Я не уверен, откуда идет 0001
. Я мало знаю о кодировке символов.
При печати текста посимвольно, используя:
s = u'that\u2019s \U0001f63b'
for c in s:
print c.encode('unicode_escape')
Программа производит следующий вывод:
t
h
a
t
\u2019
s
\ud83d
\ude3b
Как правильно прочитать эти последние символы в Python? Я правильно использую кодировку здесь? Должен ли я просто попытаться уничтожить эти 0001
s перед чтением, или есть более простой, менее глупый способ?
'0xf63b' находится в разделе« Личное использование »Юникода. Вы уверены, что это правильно? Ваша кодовая точка, вероятно, '0x1f63b', так как это« улыбающаяся кошка с сердечными глазами »emoji. – Kupiakos
Как вы определили, что '\ uf63b' будет символом Эмодзи? Согласно моей ссылке, она не определена: http://www.fileformat.info/info/unicode/char/f63b/index.htm –