Я попытался прочитать мой набор данных в текстовом формате, используя pandas. Однако некоторые символы не кодируются правильно. Я получил ??? для апострофа.pandas read_csv encoding weird character
Что нужно сделать для правильного кодирования файла? Я попытался
encoding = "utf8"
, но я получилUnicodeDecodeError: 'utf8' codec can't decode byte 0xc3 in position 2044: unexpected end of data
.encoding = "latin1"
, но это дало мне много?encoding = "ISO-8859-1" or "ISO-8859-2"
, но это также дало мне так же, как без кодирования ...
Когда я открываю мои данные в возвышенном, я получил этот знак â € ™.
ОБНОВЛЕНО: Но когда я достигаю запись с помощью LOC я получил что-то вроде \ u0102 \ u02d8 \ XE2 \ x82 \ u0179 \ xc2 \ u015, \ u0102 \ u02d8 \ XE2 \ x82 \ u0179 \ XE2 \ x84 \ u02d8
Вам нужно знать, в какой кодировке находится файл. Где вы взяли файл? – BrenBarn
вы пробовали ISO-8859-2? –
@ AndyHayden Да, я сделал – user3362840