У меня есть Vector Corpus в R. Я хочу удалить все идентификаторы электронной почты, появляющиеся в этом корпусе. Идентификаторы электронной почты могут находиться в любой позиции в корпусе. Скажем, например,Удалить идентификаторы электронной почты из корпуса
1> "Could you mail me the Company policy amendments at [email protected] Thank you."
2> "Please send me an invoice copy at [email protected] Looking forward to your reply".
Так вот я хочу, чтобы идентификаторы электронной почты «[email protected]» и «[email protected]» должны быть удалены только из корпуса.
Я попытался с помощью:
corpus <- tm_map(corpus,removeWords,"\w*gmail.com\b")
corpus <- tm_map(corpus,removeWords,"\w*yahoo.co.in\b")
Использование регулярного выражения для соответствия адресам электронной почты не так просто, как может показаться. Проверьте этот вопрос и его ответы на долгое обсуждение и несколько примеров: http://stackoverflow.com/questions/201323/using-a-regular-expression-to-validate-an-email-address – Molx