У меня есть куча csv
файлов, которые я читаю в R и включаю в папку пакета/данных в формате .rdata
. К сожалению, не-ASCII-символы в данных не проходят проверку. Пакет tools
имеет две функции для проверки символов, отличных от ASCII (showNonASCII
и showNonASCIIfile
), но я не могу найти его, чтобы удалить/очистить их.Удаление символов, отличных от ASCII, из файлов данных
Прежде чем я изучу другие инструменты UNIX, было бы здорово сделать все это в R, чтобы я мог поддерживать полный рабочий процесс из необработанных данных в конечный продукт. Существуют ли какие-либо существующие пакеты/функции, которые помогут мне избавиться от символов, отличных от ASCII?
Попробуйте использовать регулярные выражения, например функцию gsub. Check? Regexp – aatrujillob
Вы знаете, что 'read.csv()' принимает аргумент 'encoding', поэтому вы можете обрабатывать их, по крайней мере, в R? Какая конкретная проверка приведет к сбою символов, отличных от ASCII, находится ли она в R (если это так) или внешнем? – smci