Что такое хорошая оценка/преобразование/формула для определения X # символов = Y # байтов?Символы к байтам
ответ
Это полностью зависит от кодировки и потенциально данных.
Для UTF-16, если вы знаете, что все символы находятся на базовой многоязычной плоскости, ответ будет байтами = 2 *.
Для UTF-8, если все находится в диапазоне ASCII, то байты = символы, но если есть много дальневосточных символов, это может быть столько же, сколько байты = 3 * символов (и это все еще предполагается базовым Многоязычный самолет).
Другие кодировки, очевидно, имеют разные сценарии. Не могли бы вы подробнее рассказать о своей ситуации (и вашей платформе)? Вы хотите точно рассчитанное значение на основе реальных символов? Вы знаете что-нибудь о тексте, который вы собираетесь кодировать?
UTF-8 может использовать до 4 байтов для одного символа. –
@ Кристофер: Даже внутри BMP? Не согласно http://www.cl.cam.ac.uk/~mgk25/unicode.html#utf-8 –
Для ANSI я бы подумал, что 1 байт для char, но для unicode я бы подумал 2 байта на символ. Хотя есть, вероятно, многобайтовые шаблоны.
- 1. Доступ к байтам страницы
- 2. Строка к байтам, C#
- 3. Python, приведение целого к байтам.
- 4. Применить SQL «LIKE» к байтам
- 5. Доступ к байтам в BinaryJS
- 6. конвертировать путь к фактическим байтам?
- 7. java.outOfMemory при чтении файла к байтам
- 8. Доступ к отдельным байтам в массиве
- 9. Доступ к байтам в массиве MIPS
- 10. доступ к последним 2 байтам целого числа
- 11. доступ к байтам целого числа в c
- 12. Как добавить к байтам в python 3
- 13. Завершение записи файла приводит к 0 байтам
- 14. Перемещение по выделенным байтам
- 15. Усечение строк по байтам
- 16. Адресация размера по байтам
- 17. При попытке доступа к отдельным байтам в C, почему я могу получить доступ к байтам вне диапазона типа?
- 18. Доступ к отдельным байтам в PROGMEM на Arduino/AVR
- 19. Доступ к байтам из NSURLSessionDownloadTask по мере их загрузки
- 20. x86: доступ к несогласованным пиксельным байтам изображения BMP
- 21. Гибкий член массива для доступа к объединенным байтам
- 22. WinRT C++ (Win10) Доступ к байтам из SoftwareBitmap/BitmapBuffer
- 23. C# доступа к байтам файла фильма кадр за кадром
- 24. Доступ к sys.argv как байтам в Python 3
- 25. Преобразование символов Юникода в шестнадцатеричный приводит к дополнительным байтам
- 26. Приложение Google App Engine Локальный хранилище данных? к сохраненным байтам
- 27. Как отсортировать файл журнала доступа к байтам 3G?
- 28. Является ли доступ к байтам переменной __m128 через union legal?
- 29. Доступ к отдельным байтам структуры с помощью указателей
- 30. Какой размер Целочисленный размер равен 4 байтам?
Это зависит исключительно от используемой вами схемы кодирования символов. Какой из них вы используете? –
MySQL ...? > _o –
Кодировка по умолчанию в MySQL - латинская-1, поэтому, если вы ее не изменили, это 1 байт на символ, но вы можете хранить только очень ограниченный набор символов. Рассмотрим использование UTF-8. – bobince