Использование англоязычного сегментатора словаря в Стэнфорде, мы хотим подделать и сегментировать арабский текст. ArabSegmenter делает это успешно, но в результате не выполняется первоначальное смещение символов токенов (CoreLabels). Кроме того, результат ArabicTokenizer, используемый в языке ArabicSegmenter class (3.5.2), имеет все маркеры с коррекцией char (т.е. начало), установленным в 0.Stanford Segmenter: Как сгенерировать арабские словарные сегменты вместе с маркерами/сегментами char начинать смещения и длины?
Как получить сегменты арабского слова вместе со смещением char приведенных результатов CoreLables?