Аннотированные данные по обучению для NER corpus

В документации opennlp указано, что мы должны подготовить нашу модель с 15000 линиями для хорошей работы. Теперь я должен извлечь из документа разные объекты, что означает, что я должен добавить разные теги для многих токенов в данных обучения (15000 строк), что займет много времени. Есть ли другой способ сделать это? что сократит время или любой другой метод, который я могу продолжить.Аннотированные данные по обучению для NER corpus

Спасибо.

источник

2016-05-23 Anonymous

FYI [Как создать учебный комплект для обозначения последовательности] (http://datascience.stackexchange.com/q/16940/843) –

Вот некоторые инструменты:

http://gate.ac.uk/ GATE

GATE Teamware (на базе Интернета) http://gate.ac.uk/teamware/

XConc Люкс http://www-tsujii.is.s.u-tokyo.a ...

Сапиент (предложение на основе) http://www.aber.ac.uk/en/cs/rese .. .

Контролер (Protégé plug-in) http://knowtator.sourceforge.net/

CorpusTool http://www.wagsoft.com/CorpusToo ...

UIMA CAS редактор http://uima.apache.org/

Callisto http://callisto.mitre.org/

Wordfreak http://wordfreak.sourceforge.net/

MMax2 http://mmax2.sourceforge.net/

ссылка: https://www.quora.com/Natural-Language-Processing-What-are-the-best-tools-for-manually-annotating-a-text-corpus-with-entities-and-relationships

источник

2016-05-23 13:00:07 smoothsipai

Это один также стоит попробовать:

brat rapid annotation tool

Я использовал его сам и рекомендую.

источник

2016-06-04 15:33:51

Аннотация требует времени и требует, чтобы кто-то был знаком с доменом сущностей. Вокруг этой проблемы нет.

В конце дня аннотации должны быть в формате, распознаваемом opennlp. Основной формат представлен в документации opennlp:

Данные могут быть преобразованы в формат обучения поиска имени OpenNLP. Это одно предложение на строку. Также доступны некоторые другие форматы. Предложение должно быть пронумеровано и содержать пробелы, которые отмечают сущности. Документы разделяются пустыми строками, которые запускают сброс генераторов адаптивных функций. Учебный файл может содержать несколько типов. Если файл тренировки содержит несколько типов, созданная модель также сможет обнаруживать эти несколько типов. На данный момент рекомендуется только обучать модели одного типа, так как поддержка нескольких типов все еще экспериментальна.

Поэтому, если вы используете один из инструментов, упомянутых в других ответах, вам нужно убедиться, что opennlp может прочитать этот формат или преобразовать этот формат в нечто, что можно распознать.

источник

2016-09-26 16:13:37 demongolem

Аннотированные данные по обучению для NER corpus

ответ

Смежные вопросы