2016-12-24 2 views
1

Я работаю над программой, которая занимается корейскими предложениями, и мне нужен способ сломать слог или блокировать его буквы. Для тех, кто не знает Хангула, слог состоит из 2-4 букв (jamo), создавая тысячи различных комбинаций. То, что я хотел бы сделать, - сломать эти слоги в письма, которые его образуют.Нарушение слоганга в письмах (jamo)

Мне удалось получить первую букву, сравнив ее значение Unicode с соответствующей буквой в этом диапазоне, то есть слог, начинающийся с буквы x, находится в диапазоне y. Однако я затрудняюсь найти остальные буквы.

Это таблица, содержащая значения Unicode для хангыль слогов: http://jrgraphix.net/r/Unicode/AC00-D7AF

ответ

3

разложения хангыль слог (например + + ) делается в Java через java.text.Normalizer класс:

String s = Normalizer.normalize("\uD4DB", Normalizer.Form.NFD); 

Алгоритм разложения Хангула также приведен в Section 3.12 of the Unicode Standard (from page 142); и поскольку нормализация затрагивает и другие, неангульские символы, вы должны ознакомиться с общими принципами и формами нормализации Юникода в UAX #15.

+0

Большое вам спасибо, это именно то, что я искал. Я волновался, что мне придется создавать свои собственные алгоритмы для разложения слогов. – Ninjaman494

Смежные вопросы