2015-03-25 7 views
0

Я пытаюсь найти части речи в определенном предложении. Я пытался сделать это с помощью кода приведенной нижеPOS-метка в python

from nltk import word_tokenize 
import nltk.data 
a=raw_input() 
text = word_tokenize(a) 
pairs=nltk.pos_tag(text) 
print pairs 

Но это всегда показывает «Удалить», как JJ (прилагательное), где она должна быть Глагол. Как я могу улучшить код? Заранее спасибо

+1

Что вы вводите? –

+0

«delete directory» – user3237714

+0

Я не думаю, что вы можете ожидать высокой точности для фрагментов предложения, но для начала вам, вероятно, потребуется собрать корпус правильно помеченных фрагментов предложения для обучения новой модели. Тот, который вы используете, был сделан для анализа полных предложений в тексте. – tripleee

ответ

0

Сначала вы должны получить корпус правильно помеченных предложений (как было предложено выше). Просто увеличение некоторых корпусов в вашей папке nltk_data может быть уже полезно. Чтобы обучить свой собственный теггер, см.: http://nltk-trainer.readthedocs.org/en/latest/train_tagger.html

Смежные вопросы