Я делаю текст добычу на твиты У меня есть проблемы с повторяющимися твитами, как это:Как удалить дублированные твиты в R?
«aeCERT: aeCERT обеспечивает постоянную программу повышения осведомленности по информационной безопасности трехсторонний, правоохранительная, Academic сектора и общественности.»
«Salim_aeCERT: aeCERT предоставляет постоянную программу по информационной безопасности для учредителей, правоохранительных органов, академического сектора и общественности».
У меня такие же твиты для двух разных учетных записей, как я мог устранить один из моего набора данных? Я попробовал этот код, но дублированные твиты все еще появляются:
tweets1.df <- do.call("rbind", lapply(tweets, as.data.frame))
tweets2.df <- tweets1.df[duplicated(tweets1.df) == FALSE,]
dim(tweets2.df)
Как я могу удалить дубликаты твитов из различных учетных записей?
вы можете удалить все перед двоеточием (-> регулярное выражение, GSUB, зиЬзЬги и т.д.), а затем сравнить строки или вы могли бы использовать приближенную строку совпадение (-> agrep()). – EDi