У меня есть код ниже, чтобы создавать чистые тексты для моего анализа настроений в Twitter. Я хочу добавить еще одну строку, чтобы удалить определенные слова, которые я не хочу включать в этот анализ, например, «дерьмо», «больной» и т. Д. Может ли кто-нибудь угодить советам, как это сделать?R - Анализ настроений - Как удалить определенные слова
tweets <- searchTwitter("iPhone", n=1500, lang="en")
txt <- sapply(tweets, function(x) x$getText())
txt <- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", txt)
txt <- gsub("@\\w+", "", txt)
txt <- gsub("[[:punct:]]", "", txt)
txt <- gsub("[[:digit:]]", "", txt)
txt <- gsub("http\\w+", "", txt)
txt <- gsub("[ \t]{2,}", "", txt)
txt <- gsub("^\\s+|\\s+$", "", txt)
Ryo .. Возможно, вы, возможно, читали блог: https://mkmanu.wordpress.com/2014/08/05/sentiment-analysis-on-twitter-data-text-analytics-tutorial/ –
Вы можете векторизовать 'gsub'. Проверьте [этот ответ на «Заменить несколько аргументов с помощью gsub»] (http://stackoverflow.com/a/15254254/3560695). Это также упрощает ваш код. – Therkel