У меня есть список твитов, многие из которых содержат emojis, которые нужно удалить. Каким будет наиболее эффективный метод для этого в R?удалить emoji из строки в R
Я попробовал следующий метод, который, как предполагается заменить все слова, начинающиеся с «\» с пустым, но я получаю эту ошибку
some_tweets <- gsub("\\\w+ *", "", some_tweets)
Error: '\w' is an unrecognized escape in character string starting ""\\\w"
Вот пример данных:
> head(some_tweets)
[1] "ஆமா நான் பாக்கவே இல்லை \U0001f625\U0001f625\U0001f625"
[2] "எனக்கு அனுப்பலாமே \U0001f913\U0001f913\U0001f913"
[3] "அவர் ஏன்டா ப்ளாக் பண்ணார் \U0001f602\U0001f602\U0001f602\U0001f602"
[4] "ஆமா"
[5] "RT : சும்மார்றா சுன்னி.. ~ ஆதவன்"
[6] "கைலியை எல்லாம் லூஸ் பண்ணிகிட்டு உக்காந்து இருக்கேன் அடுத்து போடுங்கயா \U0001f608\U0001f608\U0001f608"
> dput(head(some_tweets))
c("ஆமா நான் பாக்கவே இல்லை \U0001f625\U0001f625\U0001f625",
"எனக்கு அனுப்பலாமே \U0001f913\U0001f913\U0001f913",
"அவர் ஏன்டா ப்ளாக் பண்ணார் \U0001f602\U0001f602\U0001f602\U0001f602",
"ஆமா", "RT : சும்மார்றா சுன்னி.. ~ ஆதவன்",
"கைலியை எல்லாம் லூஸ் பண்ணிகிட்டு உக்காந்து இருக்கேன் அடுத்து போடுங்கயா \U0001f608\U0001f608\U0001f608"
)
Вы используете 'gsub' и не используете регулярное выражение. Вам нужно использовать регулярное выражение. –
Работает ли '\\\\ w + *'? – Psidom
Я пробовал '\\\\ w + *', но он не работает –