Как и для lematizer, как и для lematatizer, некоторые ошибки передаются в текстовый файл. Что они означают и как их решить?Как исправить этот UnicodeDecodeError?
Traceback (most recent call last):
File "preproc.py", line 89, in <module>
apos=stem_data(nostop)
File "preproc.py", line 51, in stem_data
r=stemmer.stem(n)
File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/nltk/stem/porter.py", line 632, in stem
stem = self.stem_word(word.lower(), 0, len(word) - 1)
File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/nltk/stem/porter.py", line 590, in stem_word
word = self._step1ab(word)
File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/nltk/stem/porter.py", line 275, in _step1ab
if word.endswith("sses"):
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 6: ordinal not in range(128)
Какие предложения, которые порождают ошибки? –
Возможный дубликат [python nltk.sent \ _tokenize error ascii codec не может декодировать] (http://stackoverflow.com/questions/27212912/python-nltk-sent-tokenize-error-ascii-codec-cant-decode) –