Я пытаюсь использовать теггер POS для Стэнфорда, чтобы пометить французский текст. Для этого я пользуюсь следующей командой:плохой токенизация в stanford postagger
ID изображения:cat file.txt | Java -mx10000m -cp 'Стэнфорд-postagger.jar:' edu.stanford.nlp.tagger.maxent.MaxentTagger -модели модели/french.tagger -sentenceDelimiter перевод строки> output.txt
(Существует один предложение на строку.)
Но я заметил, что теги были довольно плохими, и настоящая проблема на самом деле исходит из самой французской токенизации. Я думаю, что токенизация выполняется английским токенизатором.
Так что я попытался только разметить текст на французском языке, делая это:
кошки file.txt | Java -mx10000m -cp 'Стэнфорд-postagger.jar:' edu.stanford.nlp.international.french.process.FrenchTokenizer -sentenceDelimiter новой строки> tokenized.txt
И там французские жетоны хороши.
Как я могу указать теггеру использовать французскую модель для маркировки, но также французский токенизатор одновременно?
Вы Ограниченный повелевать использовать строки, или вы можете написать класс Java для этого? –
Я бы предпочел, чтобы в командной строке использовалось гораздо больше или команда, которую можно вызвать из python. – dhokas