В Python 2.7 У меня есть это:UnicodeDecodeError: 'utf8' кодек не может декодировать байт "0xC3"
# -*- coding: utf-8 -*-
from nltk.corpus import abc
with open("abc.txt","w") as f:
f.write(" ".join(i.words()))
Затем я пытаюсь прочитать в этом документе, в Python 3:
with open("abc.txt", 'r', encoding='utf-8') as f:
f.read()
только для получения:
File "C:\Python32\lib\codecs.py", line 300, in decode
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xc3 in position 633096: invalid continuation byte
Что я сделал не так? Notepad ++, похоже, указывает, что документ Unicode utf-8. Даже если я попытаюсь преобразовать документ в этот формат с помощью Notepad ++, я все еще получаю эту ошибку в python 3, что странно, так как я прочитал много других закодированных документов utf-8 без каких-либо проблем.
Что говорит о персонажах вокруг этой позиции? –