Я переучиваю систему Stanford NER для извлечения названий технологий и имен организаций из текста.Переподготовка stanford ner - новые сущности и многозначные сущности
Если я хочу, чтобы переучить модель нер Стэнфорд, мы должны дать обучающие данные в формате:
She O
works O
on O
C# TECHNOLOGY
at O
New ORGANIZATION
York ORGANIZATION
TImes ORGANIZATION
and O
Microsoft ORGANIZATION
in O
New LOCATION
York LOCATION
Достаточно ли просто указать названные объекты в этом порядке? Нужно ли указывать часть речевой информации в некотором формате, когда мы переучиваем модель? Кроме того, если у нас есть сущности, которые являются многословными, то это правильный способ их аннотировать?
Это подход, которым я придерживался: правильный подход?
- Сформировать подготовки данных
- Добавить новое название модели и расположение в файле свойств
Используется эту команду из часто задаваемых Стэнфордского нер:
java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop austen.prop