Я использую словосочетание слова stanford. Но у меня проблема с этим.Стэнфордский сегментный сегмент
набираю команду:
$ C:\Users\toshiba\workspace\SegDemo\stanford-segmenter-2013-06-20>java -cp seg.jar;stanford-segmenter-3.2.0-javadoc.jar;stanford-segmenter-3.2.0-sources.jar -mx1g edu.stanford.nlp.international.arabic.process.ArabicSegmenter -loadClassifier data/arabic-segmenter-atbtrain.ser.gz -textFile phrase.txt > phrase.txt.segmented
И у меня есть следующий процесс:
Loaded ArabicTokenizer with options: null
loadClassifier=data/arabic-segmenter-atbtrain.ser.gz
textFile=phrase.txt
featureFactory=edu.stanford.nlp.international.arabic.process.ArabicSegmenterFeat
ureFactory
loadClassifier=data/arabic-segmenter-atbtrain.ser.gz
textFile=phrase.txt
featureFactory=edu.stanford.nlp.international.arabic.process.ArabicSegmenterFeat
ureFactory
Loading classifier from C:\Users\toshiba\workspace\SegDemo\stanford-segmenter-20
13-06-20\data\arabic-segmenter-atbtrain.ser.gz ... done [1,2 sec].
Untokenizable: ?
Done! Processed input text at 475,13 input characters/second
Я не понимаю "Untokenizale:"
Должно быть предложение транслитерироваться до обработки в сегментации?
вам нужно будет проверить с разработчиками @ stanford о 'untokenizable?'. Чтобы ответить на ваш вопрос о входном предложении, нет, предложение должно быть в оригинальных арабских символах. На выходе кажется, что сегментация выполнена успешно, а вывод сохраняется в 'C: \ Users \ toshiba \ workspace \ SegDemo \ stanford-segmenter-2013-06-20 \ phrase.txt.segmented' – alvas