У меня есть следующие данные в кадре данных:согласования текста между двумя различными кадрами данных в R
structure(list(`head(ker$text)` = structure(1:6, .Label = c("@_rpg_17 little league travel tourney. These parents about to be wild.",
"@auscricketfan @davidwarner31 yes WI tour is coming soon", "@keralatourism #favourite #destination #munnar #topstation https://t.co/sm9qz7Z9aR",
"@NWAWhatsup tour of duty in NWA considered a dismal assignment? Companies send in their best ppl and then those ppl don't want to leave",
"Are you Looking for a trip to Kerala? #Kerala-prime tourist attractions of India.Visit:http://t.co/zFCoaoqCMP http://t.co/zaGNd0aOBy",
"Are you Looking for a trip to Kerala? #Kerala, God's own country, is one of the prime tourist attractions of... http://t.co/FLZrEo7NpO"
), class = "factor")), .Names = "head(ker$text)", row.names = c(NA,
-6L), class = "data.frame")
У меня есть другой кадр данных, который содержит хештег извлеченных из приведенных выше кадра данных. Она заключается в следующем:
structure(list(destination = c("#topstation", "#destination", "#munnar",
"#Kerala", "#Delhi", "#beach")), .Names = "destination", row.names = c(NA,
6L), class = "data.frame")
Я хочу, чтобы создать новый столбец в моем первом кадре данных, которые будут иметь содержать только теги совпавшие со второго кадра данных. Например, в первой строке df1 нет хэштегов, поэтому эта ячейка в новом столбце будет пустым. Однако вторая строка содержит 4 хэштага, из которых три из них соответствуют второму кадру данных. Я попытался использовать:
str_match
str_extract
функции. Я пришел очень близко к этому, используя код, приведенный в одном из сообщений здесь.
new_col <- ker[unlist(lapply(destn$destination, agrep, ker$text)), ]
В то время как я понимаю, я получаю список как выход я получаю сообщение об ошибке, указывающее
replacement has 1472 rows, data has 644
Я попытался установить max.distance различным параметрам, каждый дал мне дифференциальные ошибки. Может ли кто-нибудь помочь мне с решением? Одна из альтернатив, о которой я думаю, состоит в том, чтобы иметь каждый хэштег в отдельном столбце, но не уверен, поможет ли он мне в дальнейшем анализировать данные с другими переменными, которые у меня есть. Выход Ищу выглядит следующим образом:
text new_col new_col2 new_col3
statement1
statement2
statement3 #destination #munnar #topstation
statement4
statement5 #Kerala
statement6 #Kerala
Большое спасибо, bgoldst, это сработало! ... вот ... это было сложно для меня ... еще раз спасибо. – Apricot