2013-09-23 3 views
1

Я довольно новичок в nlp, и я пытаюсь найти пометы. в настоящее время я пытаюсь из Стэнфордского NLP пос Tagger, URL: http://nlp.stanford.edu/software/tagger.shtmlre-train stanford nlp pos tagger in eclipse

по ссылке выше, там эта фраза:

Таггер можно переучиться на любом языке, учитывая POS-аннотированный обучение текст для языка.

Однако я не могу заставить его работать. Все, что я могу сделать, это дать ему текстовый файл для тега. например. String test = "this is a test"; вернет мне this_DT is_VBZ a_DT test_NN.

Как я могу переучивать теггер? Предположим, я хочу, чтобы приведенная выше строка была возвращена как this_DT is_VBZ a_DT test_VB?

оцените любые ответы здесь.

+0

В приведенном выше примере «test» является существительным, что делает правильную маркировку. Вы имеете в виду обучение, чтобы различать существительное и глагол? – hacket

+0

привет хакету, спасибо за ответ. нет, я не хочу различать существительное и глагол. просто поставьте, как мне повторно обучить теггер, если выходные теги не те, которые мне нужны? – user1694345

ответ

0

Если у вас нет тегов с тегом POS со многими примерами явления/явлений, которые вы хотите исправить, вы, вероятно, не будете иметь успеха в переквалификации моделей тегов. Чтобы уточнить, основываясь на том, как я ожидаю, что инструменты Стэнфорда проводят обучение, нет механизма для добавления отдельных примеров для изменения моделей. Вам нужно будет иметь полный корпус и переподготовку заново.

Если у вас действительно есть корпус, я бы назвал это previously posted question, чтобы получить подробную информацию о формате файла и правильных шагах по обучению моделей Stanford CoreNLP.

В противном случае вам лучше всего написать некоторые правила пост-обработки/шаблоны регулярных выражений, которые переопределяют поведение. Использование таких правил заключается в том, чтобы люди и места в списке слов были помечены как собственные имена (NNP).

Удачи вам!

Смежные вопросы