2013-08-14 3 views
0

У меня есть корпус языка, который раньше не был аннотирован POS, то есть он не имеет существующего набора тегов. Помимо ручной маркировки текстового процессора, например блокнота, есть ли какой-либо автоматический подход, чтобы начать пометку нового немаркированного набора, подобного моему корпусу ?. Спасибо.Как построить новый набор тегов

+0

На каком языке находится корпус? – mbatchkarov

+1

Кроме того, вы используете термин «набор тегов» несколько нестандартным способом. Набор тегов - это все части речи ** ** **. Например, английский часто анализируется с использованием набора тегов Penn, что означает, что каждому слову в корпусе присваивается один из тегов в наборе тегов Penn. Поскольку лингвисты часто не согласны с тем, какие части речи имеют язык, вы можете иметь несколько наборов тегов на один язык. – mbatchkarov

+0

Спасибо за исправление. , .tag set. – Iykeln

ответ

0

Это зависит от того, насколько подробно должен быть тег-набор. 10-12 базовых POS (Noun, Adjective, ..., foreign, пунктуация) или более подробно (различающие формы глаголов, типы местоимений, пол, число, время, ...).

Первый является универсальным (см. the categories of the Multext-East tagset или универсальный набор тегов Google).

Последнее намного сложнее, у нас есть paper. Короче говоря, у нас есть шаблон для наборов тегов, затем мы его модифицируем (отбрасываем/добавляем категории и значения) в соответствии с конкретным языком.

Что касается аннотации: опять же, это зависит - если у вас есть небольшой набор тегов, вы можете вручную назначить тег каждому слову, например, в «Блокноте» или в каком-то простом графическом интерфейсе (мы используем this one, но, вероятно, есть лучшие). Если у вас есть набор тегов с сотнями или тысячами тегов, то вам, вероятно, нужна поддержка. Лучше всего использовать (возможно, порождающий) морфологический анализатор и графический интерфейс, позволяющий выбирать из опций, которые предлагает анализатор.

+0

благодарит Ирку. могу ли я связаться с вами для более подробного обсуждения, так как похоже, что у вас есть опыт, который мне поможет. Ресурсы, которые вы рекомендовали, действительно открыли мне голову. – Iykeln

+0

Да, используйте электронную почту на моей веб-странице (purl.org/jh) и напомните мне, если я не отвечу в течение недели или около того, я, вероятно, буду в понедельник. – Jirka

0

Brat имеет очень красивый графический интерфейс для ручной аннотации.

Смежные вопросы