Я новичок в сцене НЛП и использую OpenNLP 1.5
для начала работы.Пользовательская модель NER - FAIL
Я прошел через некоторые команды, приведенные в документации здесь: https://opennlp.apache.org/documentation/manual/opennlp.html
(я использую интерфейс командной строки для начала)
я использовал уже имеющиеся модели образца для экспериментов с различными инструментами и наконец решил создать пользовательскую модель NER.
Я следовал инструкциям, указанным в вышеупомянутой ссылке.
скопировал Примеры, приведенные в .train
файл (я просто создал новый файл с этим расширением и вставить содержимое в него):
<START:person> Pierre Vinken <END> , 61 years old , will join the board as a nonexecutive director Nov. 29 .
Mr . <START:person> Vinken <END> is chairman of Elsevier N.V. , the Dutch publishing group .
Я использовал следующую команду, чтобы сделать модель:
bin/opennlp TokenNameFinderTrainer -model en-ner-person2.bin -lang en -data en-ner-person2.train -encoding UTF-8
Проблема в том, что даже если модель создается, она работает неправильно. Протестировано это с использованием вновь созданной модели: bin/opennlp TokenNameFinder en-ner-person2.bin
Но когда я ввожу Pierre Vinken
, он не узнается как человек. Я также попытался создать модель из файла .txt
с тем же содержимым, но это тоже не удалось.
Что я делаю неправильно?
TIA.
Каков результат, который вы получаете при вводе 'Pierre Vinken'? Вы пытались ввести полные предложения вместо этого? – NBartley
@NBartley Токовый выход - это просто «Pierre Vinken». Я хочу '<НАЧАТЬ: человек> Пьер Винкен'. –
@NBartley Я не пробовал полные предложения. Когда я попробовал только «Pierre Vinken» с уже доступной моделью образца, я получил ожидаемый результат. –