2016-02-26 4 views
0

Как и для lematizer, как и для lematatizer, некоторые ошибки передаются в текстовый файл. Что они означают и как их решить?Как исправить этот UnicodeDecodeError?

Traceback (most recent call last): 
     File "preproc.py", line 89, in <module> 
     apos=stem_data(nostop) 
     File "preproc.py", line 51, in stem_data 
     r=stemmer.stem(n) 
     File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/nltk/stem/porter.py", line 632, in stem 
     stem = self.stem_word(word.lower(), 0, len(word) - 1) 
     File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/nltk/stem/porter.py", line 590, in stem_word 
     word = self._step1ab(word) 
     File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/nltk/stem/porter.py", line 275, in _step1ab 
     if word.endswith("sses"): 
    UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 6: ordinal not in range(128) 
+0

Какие предложения, которые порождают ошибки? –

+0

Возможный дубликат [python nltk.sent \ _tokenize error ascii codec не может декодировать] (http://stackoverflow.com/questions/27212912/python-nltk-sent-tokenize-error-ascii-codec-cant-decode) –

ответ

1

У вас есть какие-то не-ASCII символ, так что это вопрос кодирования .. Это помогло бы знать, какие предложения производят эту ошибку

+0

Это: впечатления художника о галактиках, обнаруженных в Зоне избегания Млечного Пути, показано на этой недатированной иллюстрации, представленной Международным центром радиоастрономических исследований 24 февраля. Австралийский телескоп использовался для трансляции живого видения человека первые шаги на Луне в 1969 году нашли сотни новых галактик, скрывающихся за Млечным Путем, используя инновационный приемник, который измеряет радиоволны. – minks

+0

Измените свою кодировку на utf-8. Должен исправить проблему. – ubadub

+0

Но потом я снова это получу: UnicodeEncodeError: кодек ascii не может кодировать символ u '\ u2019' в позиции 6: порядковый номер не в диапазоне (128) – minks

Смежные вопросы