1

Я изучаю как извлечения ключевых фраз из документа для моей диссертации.Как использовать тег PoS как функцию для обучения данных по классификатору Наив Байеса?

В моих исследованиях я использовал обучение методам Naive Bayes для создания учебной модели функций кандидата. Одна из особенностей: PoS tag, я думаю, что эта функция важна для указания термина - ключевая фраза или нет.

Но ввод Классификатор Naive Bayes (NB) - это номера, а тег PoS - строка.

Так что я не знаю способ представления функции тега PoS как числа, чтобы стать функцией ввода для классификатора NB.

Пожалуйста, помогите мне дать ваш совет.

Спасибо и уважение, Хен Су

ответ

1

Вы можете рассматривать POS тег как слово. Затем вы можете использовать функцию POS unigram, bigram или trigram.

Пример:

Они/ПРП отказываются/ВБП в/разрешать/VB/PRB нам в /, чтобы получить/В.Б./DT/отказаться от разрешения NN/NN.

Если вы берете POS триграммы как функции. Вы можете создать вектор со следующими функциями.

Feature   Value 
(PRP,VBP,TO)  1 
(VBP,TO,VB)  1 
(TO,VB,PRB)  1 

и так далее.

Вы также можете использовать значение tf-idf для функций POS.

+0

большое спасибо. – user1266236

Смежные вопросы