Недавно я занимался текстами со смешанными языками, включая китайский, английский и даже некоторые смайлики.Как отличить слово полуширина или полная ширина?
Я искал эту проблему довольно много, но единственное, что я могу найти, это «заменить символы полной ширины символами полуширины», а не сообщать вам, как определить, является ли символ половиной - или слово полной ширины.
Итак, мой вопрос:
Можно ли сказать, является ли слово полуширина или всю ширину?
Обычно, если вы хотите изучить текст, вы поместите его в форму разложения совместимости, такую как NFKD. Если вы это сделаете, латинские символы с полной шириной станут нормальными (полуширина), а halfwidth kana/hangul станет нормальным (полная ширина), что упростит анализ текста. Вы можете сделать это в python с помощью 'import unicodedata; unicodedata.normalize («NKFD», текст). –
Спасибо за информацию! – amigcamel
Это NFKD, а не NKFD. –