2013-02-23 2 views
4

Я строй именованного объекта распознаватель с условным случайным полем, и я ищу две вещей:Названы Распознавание объектов данных и функции

А) с открытым исходным кодом, английский ИЙ набором данных для Person, местоположения, и лица организаций

B) список английского НЭКЕ особенность

Я уже посмотрел на корпусе CoNLL-2003 и нашел, что это именно то, что я хочу, но это не так легко доступно. Мне не удалось найти список функций NER; Я стараюсь избегать придания дизайна этим функциям.

Благодаря

+0

Итак, я понимаю, вы ищете что-то бесплатно, не так ли? :) Я думаю, что в этом списке может быть несколько, которые могли бы помочь: http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html – dmn

ответ

0

A) Помимо корпусов MUC вы должны проверить вручную аннотированный суб-корпус здесь: http://www.americannationalcorpus.org/MASC/About.html Это бесплатно и имеет различные жанры документов. Он поставляется с инструментами для разбора формата в NLTK, GATE и UIMA: http://www.anc.org/MASC/Download

B) Это очень общий вопрос. Вы можете попробовать n-граммы, капитализацию слов, используя словарные строки как функции, части речи, и т.д. Вы можете начать с чтения о парсере подходе Стэнфордского с ХПНОМ: http://nlp.stanford.edu/software/CRF-NER.shtml

1

Вы найдете обобщенное и очень информативное исследование того, что необходимо для НЭКЕ в this paper от Ратинов & Roth. Кроме того, их система полностью с открытым исходным кодом и включает списки названных объектов, собранных из Википедии.

Смежные вопросы