2014-09-11 2 views
2

Части CoreRLT тегов речевых тегов и тегов распознавания сущностей имен довольно хороши из коробки, но я хотел бы улучшить точность, чтобы общая программа работала лучше. Чтобы больше узнать о точности - бывают ситуации, когда POS/NER ошибочно помечены. Например:Улучшение тегов TOS CoreNLP и тегов NER?

  • «автомобилестроение надзирал» получает помечено как ННП-NN-NN

, а не VB * или что-то подобное, так как это глагол, как фраза (я не лингвист , так что возьмите это с куском соли).

Итак, что является лучшим способом для улучшения точности?

  • Есть ли лучшие модели для POS/NER, которые могут быть включены в CoreNLP?
  • Должен ли я переключиться на другие инструменты НЛП?
  • Или создать учебные модели с правилами исключения?

ответ

2

Прежде всего, «производство сверхпрочных автомобилей» даже не является предложением и само по себе не имеет особого смысла :-) Эти модели чаще всего обучаются целым предложениям. Если вы вводите «Он контролирует производство автомобилей» здесь [1], который использует CoreNLP, тогда вы получите более разумный результат.

Предположим, что у вас все еще есть неточные результаты. Если вы не используете небольшую примерную модель, то нет лучшей модели. Это всегда зависит от домена, и даже модели «по умолчанию» обучаются определенным доменам, например. газеты.

Скорее всего, вам придется самостоятельно обучать модель, а не правила исключения, но для определенного домена текста, например. Тексты, говорить об автомобилях или о производстве, или с определенным стилем написания и т.д.

[1] http://nlp.stanford.edu:8080/corenlp/process

+1

у вас есть какие-либо лучшие практики для подготовки модели? Как выбрать и выбрать данные? Должна ли она быть сбалансированной? –

Смежные вопросы