2015-06-13 2 views
1

Использование англоязычного сегментатора словаря в Стэнфорде, мы хотим подделать и сегментировать арабский текст. ArabSegmenter делает это успешно, но в результате не выполняется первоначальное смещение символов токенов (CoreLabels). Кроме того, результат ArabicTokenizer, используемый в языке ArabicSegmenter class (3.5.2), имеет все маркеры с коррекцией char (т.е. начало), установленным в 0.Stanford Segmenter: Как сгенерировать арабские словарные сегменты вместе с маркерами/сегментами char начинать смещения и длины?

Как получить сегменты арабского слова вместе со смещением char приведенных результатов CoreLables?

ответ

2

Смещение символов 0 от ArabicTokenizer связано с ошибкой, которая теперь зафиксирована в Github repository. Исправление будет включено в следующий выпуск CoreNLP (3.5.3, запланированный на середину октября 2015 года). С этим исправлением CoreLabel s, возвращенный с tokenize, должен быть аннотирован с правильными индексами в исходный текст источника, как показано в this test.

В настоящее время ArabicSegmenter остается интерфейсом «строка-строка», что означает, что, возможно, нет чистого способа извлечь исходные смещения символов из него.

Смежные вопросы