Аннотация требует времени и требует, чтобы кто-то был знаком с доменом сущностей. Вокруг этой проблемы нет.
В конце дня аннотации должны быть в формате, распознаваемом opennlp. Основной формат представлен в документации opennlp:
Данные могут быть преобразованы в формат обучения поиска имени OpenNLP. Это одно предложение на строку. Также доступны некоторые другие форматы. Предложение должно быть пронумеровано и содержать пробелы, которые отмечают сущности. Документы разделяются пустыми строками, которые запускают сброс генераторов адаптивных функций. Учебный файл может содержать несколько типов. Если файл тренировки содержит несколько типов, созданная модель также сможет обнаруживать эти несколько типов. На данный момент рекомендуется только обучать модели одного типа, так как поддержка нескольких типов все еще экспериментальна.
Поэтому, если вы используете один из инструментов, упомянутых в других ответах, вам нужно убедиться, что opennlp может прочитать этот формат или преобразовать этот формат в нечто, что можно распознать.
FYI [Как создать учебный комплект для обозначения последовательности] (http://datascience.stackexchange.com/q/16940/843) –