Я использую Stanford POS tagger, чтобы разобрать вопросы. Это один из лучших тегеров POS, доступных в моем опыте, но простой вопрос типа «Когда Никсон умер?» Неправильно аннотированные вЕсть ли тег POS, способный разбираться «Когда Никсон умер?» правильно?
When_WRB did_VBD Nixon_NNP die_NN
Проблема заключается в "die_NN". Очевидно, что «смерть» не является существительным в этом случае, а глаголом. Это происходит с большим количеством вопросов. Мои вопросы:
- Можно ли настроить стенографический тестер Стэнфорда, чтобы дать правильную аннотацию к этому предложению? Или, альтернативно, пусть он создает несколько аннотаций, из которых один правильный?
- Есть ли какие-либо другие тегеры POS с интерфейсом Java, которые могут правильно разбирать такие вопросы?
Итак, стандартная оговорка заключается в том, что вы никогда не найдете тег-маркер, который все время будет правы. Но, я думаю, что тестер Стэнфордского ПОС действительно прав? По крайней мере, в самой последней версии кода? Если вы наберете «When Nixon die» в corenlp.run, он правильно пометит «умереть» как VB. –
@Gabor, вы правы. Если вы переходите на последнюю бета-версию, она работает нормально. Не могли бы вы поддержать свой комментарий к ответу? Тогда я могу дать вам щедрость. –