2015-05-12 1 views
9

В чем разница между UTF-32 и UCS-4? Не UTF-32 должен быть кодировкой с фиксированной шириной?В чем разница между UTF-32 и UCS-4?

+1

Что это за [страница wikipedia] (https://en.wikipedia.org/wiki/UTF-32), что неясно? Если на этой странице есть двусмысленности, было бы полезно обсудить их. –

+0

Что «ненавидят»? На вопрос полностью отвечает страница Википедии, поэтому это не является полезным дополнением к этому сайту. Если на этой странице есть что-то непонятное (и многое о Unicode вызывает недоумение), то более подробный вопрос, который говорит, например, «Это объяснение, по-видимому, подразумевает X, но в этой другой части подразумевается Y, что противоречит; так в чем же резолюция? - было бы полезным и поучительным вопросом. Вопрос, который не отображает исследования, или другие попытки опросчика ответить на него сам, меньше. –

ответ

8

UTF-32 начато как подмножество UCS-4. Теперь он идентичен, за исключением того, что стандарт UTF-32 имеет дополнительную семантику Unicode. Подробнее о wikipedia:

Оригинальный стандарт ISO 10646 определяет 31-битовую форму, кодирующий названный UCS-4, в котором каждый закодированный символ в универсальный набор символов (ПСК) представлен 32 -битное дружественное значение кода в кодовом пространстве целых чисел от 0 до шестнадцатеричного 7FFFFFFF.

Поскольку только 17 самолетов, на самом деле в использовании, все текущие кодовые точки находятся между и 0x10FFFF. UTF-32 является подмножеством UCS-4, который использует только этот диапазон. Поскольку в документе «Принципы и процедуры» JTC1/SC2/WG2 указано, что все будущие присвоения символов будут , привязанные к BMP или первым 14 дополнительным плоскостям, UTF-32 сможет представлять все символы Юникода. Соответственно, UCS-4 и UTF-32 теперь идентичны, за исключением того, что стандарт UTF-32 имеет дополнительную семантику Unicode.

Однако, я не уверен, что означает additional Unicode semantics. Может быть, кто-то может дать лучший ответ.

+8

Что означает «дополнительная семантика Unicode»? –

+0

Я лично не знаю @ 一 二三. Возможно, нам нужен лучший ответ, который содержит больше информации об этом. –

+0

Статья в Википедии гласит: «[разъяснение необходимо]». –

5

В Unicode Standard Version 8.0, Appendix C состояния:

UCS-4 означает «универсальный набор символов, закодированной в 4 октета.» Это трактуются просто как синоним для UTF-32, и считается канонической формой для представления символов в 10646.

Смежные вопросы