2008-11-24 3 views
46

Я ищу небольшую библиотеку C для обработки строк utf8.Light C Unicode Library

В частности, расщепление на основе разделителей юникода для использования с алгоритмами генерации.

Похожие сообщения предложили:

ICU http://www.icu-project.org/ (я нашел его слишком громоздким для моих целей на встраиваемых устройствах)

UTF8-CPP: http://utfcpp.sourceforge.net/ (Отлично, но C++ не C)

Has любой из них нашел независимые от платформы небольшие библиотеки баз данных для обработки строк unicode (не требуется натурализация).

+1

utf8-cpp - это здорово! плавно переносится на ios/android. header only libarary – barney 2016-05-21 15:25:53

ответ

31

Хорошая, легкая библиотека, которую я использую успешно, - utf8proc.

7

UTF-8 специально разработан так, что многие байт-ориентированные строковые функции продолжают работать или нуждаются только в незначительных модификациях.

Функциональность C's strstr, например, будет работать отлично, если оба входа являются действительными, строки UTF-8 с нулевым завершением. strcpy работает нормально, пока его входная строка начинается с границы символа (например, возвращаемое значение strstr).

Вам может не понадобиться отдельная библиотека!

+3

Очень правда, до сих пор мне только нужно было хранить/копировать строки и делать именно это. Но затем мне стало нужно разделить/стричь слова для индексации, поэтому я хотел убедиться, что я правильно их разбираюсь. – Akusete 2008-11-24 07:33:13