Привет Я пытаюсь изучить NLTK. Я новичок в Python. Я пытаюсь сделать следующее.NLTK 3 POS_TAG бросает UnicodeDecodeError
>>import nltk
>>nltk.pos_tag(nltk.word_tokenize("John lived in China"))
Я получаю следующее сообщение об ошибке
Traceback (most recent call last): File "", line 1, in nltk.pos_tag(nltk.word_tokenize("John lived in California")) File "C:\Python34\lib\site-packages\nltk\tag__init__.py", line 100, in pos_tag tagger = load(_POS_TAGGER) File "C:\Python34\lib\site-packages\nltk\data.py", line 779, in load resource_val = pickle.load(opened_resource) UnicodeDecodeError: 'ascii' codec can't decode byte 0xcb in position 0: ordinal not in range(128)
Я скачал все модели доступны (в том числе maxent_treebank_pos_tagger)
Кодирование системы по умолчанию является UTF-8
>>sys.getdefaultencoding()
Я открыл файл data.py, и это доступный контент.
774# Load the resource.
775 opened_resource = _open(resource_url)
776if format == 'raw':
777 resource_val = opened_resource.read()
778 elif format == 'pickle':
779 resource_val = pickle.load(opened_resource)
780 elif format == 'json':
781 import json
Что я здесь делаю неправильно?
-1 Жесткая кодировка устаревшего кодирования устаревшей информации вряд ли подходит. – tripleee
Любое другое решение, которое вы можете предоставить? –
@ tripleee что-то лучше, чем ничего! –