0

Я хочу выполнить часть тегов и распознавания сущностей в python, подобных функциям Maxent_POS_Tag_Annotator и Maxent_Entity_Annotator openNLP в R. Я бы предпочел код в python, который принимает ввод как текстовое предложение и дает выход как различные функции - как количество «CC», количество «CD», количество «DT» и т. д. CC, CD, DT - это теги POS, используемые в Penn Treebank. Таким образом, должно быть 36 столбцов/функций для тегов POS, соответствующих 36 тегам POS, как в Penn Treebank POS. Я хочу реализовать это на Azure ML «Execute Python Script», а Azure ML поддерживает python 2.7.7. Я слышал, что nltk в python может выполнять эту работу, но я начинаю на python. Любая помощь будет оценена по достоинству.Часть речевых тегов и распознавания объектов - python

ответ

2

Взгляните на раздел NTLK book, раздел «Сортировка и маркировка слов».

Простой пример, он использует Penn Treebank множества ярлыков:

from nltk.tag import pos_tag 
from nltk.tokenize import word_tokenize 
pos_tag(word_tokenize("John's big idea isn't all that bad.")) 

[('John', 'NNP'), 
("'s", 'POS'), 
('big', 'JJ'), 
('idea', 'NN'), 
('is', 'VBZ'), 
("n't", 'RB'), 
('all', 'DT'), 
('that', 'DT'), 
('bad', 'JJ'), 
('.', '.')] 

Затем вы можете использовать

from collections import defaultdict 
counts = defaultdict(int) 
for (word, tag) in pos_tag(word_tokenize("John's big idea isn't all that bad.")): 
    counts[tag] += 1 

получить частоты:

defaultdict(<type 'int'>, {'JJ': 2, 'NN': 1, 'POS': 1, '.': 1, 'RB': 1, 'VBZ': 1, 'DT': 2, 'NNP': 1}) 
+0

Благодаря @hellpanderr. Можете ли вы также рассказать о способах импорта nltk в python? Я новичок в python. Windows 7 - 64 бит. – ankur

+0

@ankur Шаги для импорта nltk в python: 1. откройте окно cmd; 2. команду «cd» на путь установленного Python; 3. команда 'Scripts/pip.exe install ntlk' –

+0

@ PeterPan-MSFT Я использую python 2.7.7. pip не установлен. Он показывает, что ошибка Scripts не распознается как внутренняя или внешняя команда. – ankur

Смежные вопросы