Я пытаюсь избавиться от некоторых строк символов Unicode, распространенных в моих данных.R: Perl Regex для строки символа Юникод
Sample data <- "['oguma', 'makeup', u'\u0e27\u0e34\u0e15\u0e32\u0e21\u0e34\u0e19\u0e2b\u0e19\u0e49\u0e32\u0e40\u0e14\u0e47\u0e01', 'jeban',]"
Я хочу захватить все, начиная с u '\ и включить запятую в конце.
Я думал, начиная с:
gsub("u/\\/\'....
+ все, включая следующую запятую, но я не знаю, как сказать, что вторая часть.
Для результата:
Sample data <- "['oguma', 'makeup', 'jeban',]"
предложения?
Вы ожидаете, что результатом будет '' ['oguma', 'makeup', u '', 'jeban',] "'? Взгляните на [это демо] (http://ideone.com/cpoodW). Дело в том, что это не буквальные коды, это символы вне диапазона ASCII. –
Я не знаю, какой движок R использует, но это не Perl (поскольку ничего, кроме 'perl', использует это). Может быть, это PCRE? Скорректированные теги. – ikegami