2013-11-06 3 views
1

Мне нужна модель для следующих задач:Модели для классификации именных фраз?

последовательность слов, с ее тегами POS. Я хочу судить, является ли эта последовательность слов фразой Noun или нет.

Одна модель, о которой я могу думать, это HMM.

Для тех последовательностей, которые являются существительным, мы обучаем HMM (HMM +). Для тех, кто не является существительным, мы пытаемся использовать HMM (HMM-). И когда мы делаем предсказание для последовательности, мы можем вычислить P (последовательность | HMM +) и P (последовательность | HMM-). Если первое больше, мы считаем, что эта фраза является существительным, иначе это не так.

Что вы думаете об этом? и есть ли у вас какие-либо другие модели, подходящие для этого вопроса?

+0

Попробуйте и посмотрите, как это происходит. – user2864740

ответ

-1

Моя догадка заключается в том, что HMM не является подходящей моделью. Его можно использовать для угадывания тегов POS, путем получения последовательности тегов с наивысшими вероятностями на основе предыдущих вероятностей и условных вероятностей от одного токена к другому.

Для полной именной фразы я не вижу, как эта модель соответствует.

Любой подход на основе вероятности будет очень трудным для обучения, потому что существительные-фразы могут содержать много токенов. Это делает очень много комбинаций. Чтобы получить полезную тренировочную вероятность, вам нужны действительно огромные учебные наборы.

Вы можете быстро и легко получить достаточно хороший старт по разработке набора правил грамматики, например регулярных выражений, через POS-тегов, следуя инструкциям в

http://en.wikipedia.org/wiki/Noun_phrase#Components_of_noun_phrases

или любого другого лингвистического описания существительные.

+0

Спасибо, я решаю использовать Stanford Parser напрямую. –

0

Из чего я понимаю, у вас уже есть метки POS для последовательности слов. Когда у вас есть метки для последовательности слов, вам не нужно использовать HMM для классификации, если последовательность является NP. Все, что вам нужно сделать, это посмотреть на модели следующих форм:

  1. Определитель с последующим существительным

  2. прилагательное следует существительное

  3. определителя с последующим прилагательным с последующим существительного

и т.д.

As кто-то только что упомянул, HMM используются для получения тегов POS для новой последовательности слов. Но для этого вам нужен меченый корпус для обучения HMM. В программном обеспечении NLTK есть некоторые тегированные тела.

Если ваши последовательности уже отмечены, просто используйте правила грамматики, как указано в предыдущем ответе.

0

Люди используют HMM для маркировки именных фраз в POS-помеченных предложениях, но типичная установка модели не работает так, как вы описываете.

Вместо этого, установка (см Chunk tagger-statistical recognition of noun phrases (PDF) и Named entity recognition using an HMM-based chunk tagger (PDF) для примеров) является использование НММ с тремя состояниями:

  • O (не в НП),
  • В (начало в НП),
  • I (в NP, но не в начале).

Каждое слово в предложении будет присвоено HMM одному из состояний. В качестве примера можно привести предложение:

Мальчик/DT/NN hit/VT/DT ball/NN с/PP/DT red/ADJ bat/NN ./.

может быть идеально маркируется следующим образом:

/DT B мальчик/NN I удар/VT O/DT B мяч/NN I с/PP O/DT B красный/ADJ I летучая мышь/NN I ./. О

Переходы между этими тремя состояниями СММ может быть ограничена на основе предварительного знания о том, как последовательности будут вести себя; в частности, вы можете перейти только к I из B, но другие переходы возможны с ненулевой вероятностью. Затем вы можете использовать Baum-Welch на корпусе немеченого текста для тренировки вашего HMM (чтобы идентифицировать любой тип фрагмента вообще - см. Пример Simple Unsupervised Grammar Induction from Raw Text with Cascaded Finite State Models (PDF)) или какой-то метод максимального правдоподобия с корпусом помеченного текста (в случае, если вы ищете специально для именных фраз).

Смежные вопросы