Я хочу определить слова в тексте, то есть мне нужно знать, какие символы в данном тексте являются буквами, то есть они могут быть частью (разговорного) слова, а с другой стороны, пунктуацией и т. Д.Как я могу определить, какие символы Юникода - это буквы (слова), а не знаки пунктуации?
Например, в приведенном выше предложении слова «I», «want» и «i» и «e» являются словами в этом отношении, а пробелы «.». и запятая нет.
Сложность в том, что я хочу, чтобы читать любой скрипт, основанный на Unicode. Например, немецкое слово «schön» - это одно слово. Но как насчет греческого, арабского или японского?
Итак, мне нужна таблица или список, определяющий все диапазоны символов, которые могут образовывать слова. Необязательно, мне также нравится знать, какие символы являются цифрами, которые могут формировать числа (при условии, что другие сценарии имеют аналогичные схемы нумерации, как это делают арабские числа).
Мне это нужно для Mac OS X, Windows и Linux. Я напишу приложение C, так что это должна быть либо библиотека ОС, либо полное решение для кода/данных, которое я мог бы перевести на C.
Я знаю, что Mac OS (Cocoa) предлагает функции для этой цели, но Я не уверен, есть ли похожие решения для Win и Linux (возможно, gtk)?
В качестве альтернативы, я мог бы написать свой собственный код, если бы у меня были полные таблицы.
Я нашел диаграммы Юникода (http://unicode.org/charts/index.html#scripts), но это не приходит в одной удобной форме, которую я мог бы использовать в программировании.
Итак, может ли кто-нибудь сказать мне, есть ли для этой цели функции для Windows и Linux или где я могу найти полную таблицу/список символов слова в юникоде?
Какой язык (ы)? –