2013-08-28 2 views
1

Есть ли какой-либо предел числу отдельных графем, которые могут быть представлены с помощью кодировки Unicode, такой как UTF-8? Например, стандарт Unicode ограничивает количество последовательных комбинирующих символов?Является ли множество различных графем бесконечным?

ответ

2

Набор возможных комбинаций символа и объединение меток после бесконечности (хотя и бесконечно бесконечно). Стандарт Unicode явно указывается в пункте 2.1 (в chapter 2): «Все комбинации символов могут применяться к любому базовому символу и в принципе можно использовать с любым скриптом». Комбинация буквы и диакритики может использоваться как базовый символ для другой диакритики и т. д.

На более высоком уровне протокола, как и в спецификации формата данных, вы можете, конечно, ввести ограничение, например. на количество последовательных комбинирующих меток. Однако стандарт Unicode не устанавливает такие ограничения.

+1

Примечание UAX # 15 определяет ограничение [stream-safe] (http://www.unicode.org/reports/tr15/#Stream_Safe_Text_Format), которое ограничивает количество объединяющих символов, на которых мы вернулись на конечной земле (хотя и с огромным количеством потенциальных графем). Но, несомненно, имеет строку Unicode, которая не является «безопасной для потока». – bobince

+1

@deceze, я указал, что он счетно бесконечен, что означает, что он имеет ту же мощность, что и множество натуральных чисел. –

Смежные вопросы