2013-03-02 6 views
24

У меня есть строка в R, которая содержит большое количество слов. При просмотре строки я получаю большое количество текста, который включает в себя текст, подобный следующему:Удаление некоторых символов из строки в R

>docs 

.... 

\u009cYes yes for ever for ever the boys cried in their ringing voices with softened faces 

.... 

Так мне интересно, как удалить эти \ u009 символ (все из них, некоторые из которых имеют немного разные номера) из строки. Я пробовал использовать gsub(), но это не помогло удалить содержимое из строк.

ответ

40

Это должно работать

gsub('\u009c','','\u009cYes yes for ever for ever the boys ') 
"Yes yes for ever for ever the boys " 

Здесь 009c является шестнадцатеричным числом юникода. Вы должны всегда указывать 4 шестнадцатеричных цифры. Если у вас есть много, одно решение, чтобы отделить их от трубы:

gsub('\u009c|\u00F0','','\u009cYes yes \u00F0for ever for ever the boys and the girls') 

"Yes yes for ever for ever the boys and the girls" 
+0

Спасибо, это получил это работает. –

+1

относительно «вы всегда должны указывать 4 цифры»: Это происходит только при юникоде. Это должно просто удалить пробелы и штрихи: 'gsub ('| -', '', '1-444-654')' – Zak

Смежные вопросы