предположим, что у меня есть тегированный корпус (например, коричневый корпус), и я хочу извлечь слова, отмеченные только '/ nn'. Например:вычитание фрагментов в python с использованием nltk
Daniel/np termed/vbd ``/`` extremely/rb conservative/jj ''/'' his/pp$ estimate/nn.....
это часть отмеченного корпуса коричневого цвета. то, что я хочу сделать, - это извлечь слова, например - оценить (пометить с помощью/nn) и добавить их в список. Но в большинстве случаев я обычно обнаружил, что вы помечаете корпус. Я действительно запутался, увидев этот пример. Может ли кто-нибудь помочь мне, предоставив пример или учебник об извлечении слов из помеченного корпуса.
Заранее спасибо.
спасибо, но если я попробовать с [nltk.tag.str2tuple (т) для т в sent.split(), если t.split ('/') [1] == 'NN'] это дает error [nltk.tag.str2tuple (t) для t в send.split(), если t.split ('/') [1] == 'NN'] IndexError: индекс списка за пределами допустимого диапазона – user1052462
Это странно, я получаю: '[('jury', 'NN'), ('number', 'NN'), ('interest', 'NN')]'. Когда вы скопировали отправленную строку в мой пост, вы опустили эллипсы, то есть «...». Я получаю описанную вами ошибку, если вы не вытащите ее. – sgallen