Я использовал this post, чтобы создать регулярное выражение, которое найдет emojis в строке текста и просто вставьте некоторые символы пробела с обеих сторон. мои регулярные выражение коды:Surround emoji с пробелами
try:
# Wide UCS-4 build
oRes = re.compile(u'['
u'\U0001F300-\U0001F64F'
u'\U0001F680-\U0001F6FF'
u'\u2600-\u26FF\u2700-\u27BF]+',
re.UNICODE)
except re.error:
# Narrow UCS-2 build
oRes = re.compile(u'('
u'\ud83c[\udf00-\udfff]|'
u'\ud83d[\udc00-\ude4f\ude80-\udeff]|'
u'[\u2600-\u26FF\u2700-\u27BF])+',
re.UNICODE)
s2 = oRE.sub(r' \1 ', s1)
Однако я получаю некоторое действительно странное поведение, где Emojis вывозятся, как в приведенном ниже примере. Любой совет будет принят во внимание. Я использую Python на MacBook. Благодарю.
ВХОД
هيلاري كلينتون "متنحة" وتشير إلى عملية غش في ولاية بانسيلفانيا العتيقة قائلة: "عند فرز الاصوات ..قطعوا الكهربا ✋" # ابو_الياس
ВЫВОД
هيلاري كلينتون "متنحة" وتشير إلى عملية غش في ولاية بانسيلفانيا العتيقة قائلة: "عند فرز الاصوات ..قطعوا الكهربا ✋ "# ابو_الياس
Какую версию python вы используете? – timotree
Спасибо за ваш ответ, я использую 2.7. –
Добро пожаловать. Я не знаю много о unicode в python, так что кому-то придется ответить на ваш вопрос. – timotree