2010-10-28 2 views
3

Я работал над проектом NLP, пытаясь определить промежуточную систему маркировки POS и обертки для известных систем маркировки POS для миграции на мой. Мой вопрос:Идеи для проекта НЛП

Что такое лучшая система маркировки POS, которую вы видели.

Не говорите о системе, потому что вам это нравится, но из-за расширяемости и описательности.

Для тех, кто не знает, что такое система маркировки POS, POS обозначает части речи, а системы тегов нацелены на получение корпуса (кучу текста) и наложение меток на слова (существительное, глагол и т. Д.). .)

Надежда люди находят это интересно, как я считаю, это

ответ

3

On this page, вы найдете сравнение различных современных систем PoS. Лично я использую Standford PoS tagger.

+0

+1: Очень хорошая связь с сравнением! –

2

неясно из вашего вопроса, что именно вы имеете в виду под «POS системы мечения». Есть несколько вопросов, которые, кажется, смешиваются друг с другом:

  • которого POS множество ярлыками хорошо для конкретного языка/целей

  • как трудно конвертировать между различным tagsets

  • как а конкретный метод мечения работает с определенным набором меток (или как хорошо люди могут аннотировать использование этого конкретного набора меток)

«Промежуточный» набор тегов должен будет сделать все различия в каждом отдельном наборе тегов, чтобы упростить преобразование между тегами, но большое количество тегов может ухудшить производительность вашего тегов. Однако хорошо спроектированный большой набор тегов может также потенциально работать лучше, чем плохо разработанный небольшой набор тегов для аннотаторов для людей или для тегов.

Вы должны искать исследования в дизайне тегов и конвертации меток, и вы также можете захотеть взглянуть на работу в супермагинге. Если вы работаете на английском языке, вы можете посмотреть CLAWS 5 и CLAWS 7 и сравнить их с тегами Penn Treebank и Brown (и найти предыдущую работу, которая делает это!). This thesis может быть хорошей отправной точкой.

+0

Я глубоко заглянуть в него. Большое спасибо! –

0

Вы должны обязательно ознакомиться с C&C tools, разработанными Джеймсом Карраном и Стивеном Кларком. Это один из самых быстрых парсеров (если не самый быстрый), который вы можете найти, и он даже открыт!

0

Я хотел бы упомянуть тег CRF (http://sourceforge.net/projects/crftagger/), который по моему опыту был лучшим. Я использовал его в своем проекте мастеров, который включал грамматически правильные общие английские предложения и фразы.

Смежные вопросы