2015-03-15 2 views
0

Я читаю.csv файл, содержащий какой-то естественный текст. Иногда в тексте «используется как апостроф, иногда используется» (см. Строки 2 и 6 из this table).Проблема кодирования символов RStudio: кавычки заменены на x92

При чтении файла в RStudio на моем ноутбуке у меня нет проблем (как «и» есть в тексте). Однако при чтении файла на сервере Rstudio (экземпляр EC2) все «заменяются на \ x92, что является проблемой.

Следуя первой отправной точке первого ответа this question, я попытался с помощью глобального меню параметров на сервере RStudio изменить кодировку: Unicode, UTF-8, UTF-16, Windows-1252, ISO8859-1, и т. д.

К сожалению, независимо от моего выбора, эта же проблема возникает каждый раз.

Большое спасибо за любую помощь.

ответ

1

Я просто нашел решение, поэтому я отвечаю на мой собственный вопрос:

Как-то мои попытки установить кодировку с помощью глобального меню опций в сервере RStudio не оказывает никакого влияния на read.csv (я думал, что это было предполагается использовать кодировку, указанную в глобальных опциях, по умолчанию getOption("encoding"), но, похоже, это не всегда так ...)

В любом случае, указав тип кодирования непосредственно в read.csv, используя аргумент fileEncoding, и, проверив данные, я увидел, что на этот раз мои разные варианты кодирования повлияли. После нескольких испытаний я обнаружил, что «Windows-1252» дал мне то, что я хотел.

Смежные вопросы