Я разрабатываю эвристику для автоматического определения языка и хотел бы узнать, имеет ли данное письмо диакритические знаки (например, «Рэя» Êóëüòóðà »- все буквы имеют диакритические знаки). Было бы лучше, если бы я мог получить тип диакритики, если это возможно.Как проверить, имеет ли символ Unicode диакритические знаки в .Net?
Я просмотрел UnicodeCategory
перечисление, но не нашел ничего, что могло бы помочь мне здесь.
Письмо eth() не имеет диакритики. В Unicode это базовый символ; удар не рассматривается как диакритический. Вы можете, таким образом, пожелать переформулировать свою цель (и, возможно, объяснить, какую конкретную проблему она решит, поскольку могут быть более эффективные подходы). –
Декомпозиция - это последнее, что вы хотите сделать. Комбинация конкретного письма с конкретной диакритикой является сильным выбором для языка. Просто создайте частотные таблицы спереди. Но есть много языков, которые используют рядом без диакритики. Например, вы не сможете отличить английский, голландский и итальянский. Вам понадобится словарь, чтобы он действительно работал. Хранение, скажем, 100 наиболее распространенных слов будет длиться долго. –