Я использую NLTK 3.0
с Python 3.4 и не могу сделать POS мечения из-за следующую ошибку: Я прочитал все similar posts related to similar problems, но не мог найти способ решить эту проблему. большинство сообщений упоминают, что обновление до NLTK 3.0
решит проблему, но у меня уже есть NLTK 3.0
. Согласно этим сообщениям, изменение в data.py
nltk решает проблему, но NLTK
люди препятствуют этому. Вот мой код:кодирования в пос мечение с NLTK 3.0 на Python 3.4
from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize
pos_tag(word_tokenize("John's big idea isn't all that bad."))
и вот ошибка:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xcb in position 0: ordinal not in range(128)
Есть ли способ сделать это без манипулирования data.py
? Любая идея была бы оценена.
Вы загружали данные NLTK с помощью предоставленного интерфейса ('nltk.download()' или что-то в этом роде), а не вручную (в этом случае у вас могут быть данные для Py2)? У меня точно такая же настройка, как у вас, и я не могу воспроизвести вашу ошибку. – michaelmeyer