Я пытаюсь использовать пакет tm в R для выполнения некоторого текстового анализа. Я связал следующее:R tm package invalid input in 'utf8towcs'
require(tm)
dataSet <- Corpus(DirSource('tmp/'))
dataSet <- tm_map(dataSet, tolower)
Error in FUN(X[[6L]], ...) : invalid input 'RT @noXforU Erneut riesiger (Alt-)�lteppich im Golf von Mexiko (#pics vom Freitag) http://bit.ly/bw1hvU http://bit.ly/9R7JCf #oilspill #bp' in 'utf8towcs'
Проблема Некоторые символы недопустимы. Я хотел бы исключить недопустимые символы из анализа либо изнутри R, либо перед импортом файлов для обработки.
Я попытался с помощью Iconv, чтобы преобразовать все файлы в UTF-8 и исключить все, что не может быть преобразован в том, что следующим образом:
find . -type f -exec iconv -t utf-8 "{}" -c -o tmpConverted/"{}" \;
как указано здесь Batch convert latin-1 files to utf-8 using iconv
Но я все еще получаю та же ошибка.
Буду признателен за любую помощь.
Спасибо за ваш ответ Бен! По какой-то причине эта же строка кода, которая не срабатывала для меня, работает сейчас. Я не знаю, было ли это еще одно счастливое совпадение :) Я ничего не изменил, просто запустите его, и на этот раз он работает без каких-либо икота. – maiaini
Рад слышать, что вы получили его! – Ben