Части CoreRLT тегов речевых тегов и тегов распознавания сущностей имен довольно хороши из коробки, но я хотел бы улучшить точность, чтобы общая программа работала лучше. Чтобы больше узнать о точности - бывают ситуации, когда POS/NER ошибочно помечены. Например:Улучшение тегов TOS CoreNLP и тегов NER?
- «автомобилестроение надзирал» получает помечено как ННП-NN-NN
, а не VB * или что-то подобное, так как это глагол, как фраза (я не лингвист , так что возьмите это с куском соли).
Итак, что является лучшим способом для улучшения точности?
- Есть ли лучшие модели для POS/NER, которые могут быть включены в CoreNLP?
- Должен ли я переключиться на другие инструменты НЛП?
- Или создать учебные модели с правилами исключения?
у вас есть какие-либо лучшие практики для подготовки модели? Как выбрать и выбрать данные? Должна ли она быть сбалансированной? –