Какие символы Unicode подходят в 1, 2, 4 байта? Может ли кто-нибудь указать мне на полный график символов?UTF-8 Размер кодировки
ответ
Персонажи кодируются в соответствии с их положением в диапазоне. На самом деле вы можете найти алгоритм на странице Википедии для UTF8 - вы можете реализовать его очень быстро Wikipedia UTF8 Encoding
- U + 0000 до U + 007F являются (правильно), закодированные с помощью одного байта
- U + 0080 до U + 07FF закодированы с 2 байта
- U + 0800 до U + FFFF кодируются 3 байта
- U + 010000 до U + 10FFFF закодированы с 4 байт
Википедии статью на UTF-8 имеет достаточно хорошее описание кодировки:
- 1 байт = кодовых точек 0x000000 к 0x00007F
- 2 байта = код точки 0x000070 к 0x0007FF
- 3 байт = код точки 0x000800 к 0x00FFFF
- 4 байты = кодовые точки 0x010000 до 0x10FFFF
Карты можно скачать непосредственно с unicode.org. Это набор из 150 PDF-файлов, потому что один график будет огромным (может быть, 30 MiB).
Также следует помнить, что Unicode (по сравнению с чем-то вроде ASCII) намного сложнее обрабатывать - есть такие вещи, как текст справа налево, значки байтового заказа, кодовые точки, которые могут быть объединены («составлены») для создания один символ и различные способы представления одной и той же строки (и процесс преобразования строк в каноническую форму, подходящую для сравнения), намного больше символов пробела и т. д. Я бы рекомендовал загрузить всю спецификацию Юникода и прочитать большинство если вы планируете делать больше, чем «не много».
UTF-8 компрометации от 1 до 6 байт, хотя текущее количество кодовых точек покрывается всего 4 байтами. UTF-8 использует первый байт, чтобы определить, сколько времени (в байтах) персонаж - увидеть различные ссылки на страницы вики:
один байт UTF-8 эффективно ASCII - UTF-8 было разработанный для совместимости с ним, поэтому он более распространен, чем UTF-16, например.
Изменить: По-видимому, было решено, кодовые точки в UTF-8 не будет превышать 21 бит (4 байта последовательности) - но она имеет техническую возможность обрабатывать до 31 бит (6 байт UTF-8) ,
UTF-8 ограничен 4 байтами. Кодовое обозначение Unicode ограничено U + 1FFFFF (21 бит), а кодировка UTF-8 является канонической (должна быть выбрана самая короткая). Следовательно, вы никогда не сможете получить 5-байтовую последовательность UTF-8. Либо он будет декодировать персонаж мимо U + 1FFFFF, либо он не будет каноническим. – MSalters
В текущем наборе символов UTF-8 используется только 4 байта, но он предназначен для кодовых точек до 31 бита, что приводит к 6-байтовой последовательности. – Mikaveli
* 6-байтовые символы *? [shudder] – Piskvor
- 1. Различные кодировки utf8?
- 2. SAXParseException; Недопустимое имя кодировки «UTF8»
- 3. Изменение кодировки UTF8 в UTF8 BOM с rebol
- 4. Файл python UTF16LE для кодировки UTF8
- 5. Набор utf8 кодировки для выпуска доктрины
- 6. Недопустимое имя кодировки UTF8 при построении градации
- 7. Всегда компилировать с помощью кодировки utf8
- 8. PHP - UTF8 для изменения базовой кодировки
- 9. Получение кодировки UTF8 вместо ASCII в java
- 10. Нет кодировки UTF8 в блоках Magento
- 11. исправление кодировки базы данных в UTF8
- 12. Firebird - UTF8 Размер VarChar
- 13. MySQL utf8 VARCHAR размер
- 14. Кодировки и кодировки
- 15. ZipArchiveEntry ошибка кодировки кодировки
- 16. C# Отправить unicode SMS с использованием кодировки UTF8
- 17. Как декодировать веб-страницу в UTF8 независимо от ее кодировки
- 18. Изменение кодировки файла с UTF16 на UTF8 в партии
- 19. Исправлена база данных, закодированная через PDO без указания кодировки UTF8
- 20. Android - Как установить текст кнопки с помощью кодировки utf8
- 21. Как установить формат кодировки файлов в UTF8 в C++
- 22. В SQLPLUS, как изменить или конкретной кодировки файлов в utf8
- 23. Преобразование кодировки IAST UTF8 в SLP в PHP
- 24. Преобразование C-строк из локальной кодировки в UTF8
- 25. Декодирование многобайтовых символов UTF8 с декодером кодировки в байтовом порядке?
- 26. Преобразование текстового файла из известной (1252) кодировки в UTF8 Файл
- 27. Проблема с отображением французских символов с использованием кодировки UTF8
- 28. файл с фильтрами utf8 с фильтрами utf8
- 29. Каков размер кодировки среднего эмоцио-эмоника?
- 30. Функция WebElement.getText() и utf8
Ознакомьтесь с первым: http://www.joelonsoftware.com/articles/Unicode.html –
Полный график? Это будет ОГРОМНОЕ. См. Это для печатной версии Basic Multilingual Plane (еще 16): http://shop.designinmainz.de/en/Poster/decodeunicode-Basic-Multilingual-Plane-BMP-Map См. Раздел DecodeUnicode для википодобного представление символов Unicode: http://www.decodeunicode.org/en – Piskvor
Вы также можете прочитать о Универсальных кодах: http://en.wikipedia.org/wiki/Universal_code_%28data_compression%29 – ruslik