содержания подстроки в кавычках

В DF У меня есть столбец запись различной длины, как:содержания подстроки в кавычках

tmp_ezg.\"dr_HE_10691\", tmp_ezg.\"dr_MV_0110200016\", tmp_ezg.\"dr_MV_0111290017\" и т.д.

Как лучше подстроки, что в заключенных в кавычках?

Моя идея:

substring(DF$name, 10)

Поскольку содержание кавычек имеет разную длину, я не могу предоставить подстроку() значение, где остановиться.

Есть ли возможность подстроки только между определенными символами (т. Е. Кавычками)?

источник

2016-06-03 andrasz

Эта проблема сложна в обращении с использованием регулярного выражения, поскольку вы можете не знать, сколько котировочных пар вам нужно захватить. Это действительно работа для парсера. –

Можно ли избежать кавычек внутри цитируемых подстрок? Есть ли только одна цитированная подстрока на строку? –

@Wiktor Stribizew: Нет никаких скрытых цитат внутри указанной подстроки и да, конечно, только одна строка. – andrasz

Например

x <- c('tmp_ezg.\"dr_HE_10691\"' , 
     'tmp_ezg.\"dr_MV_0110200016\"' , 
     'tmp_ezg.\"dr_MV_0111290017\"') 
res <- sub('.*?"([^"]+)"', "\\1", x) 
print(res, quote=F) 
# [1] dr_HE_10691  
# [2] dr_MV_0110200016 
# [3] dr_MV_0111290017

... если я не ошибаюсь.

источник

2016-06-03 08:18:06 lukeA

Можете ли вы объяснить это регулярное выражение, пожалуйста? – sebastianmm

Несомненно. Совпадение любых символов до первого «, захвата любых символов» в \ 1 до следующего ». – lukeA

Спасибо.' '' Не нужно. Что означает '\\ 1'? – andrasz

Чтобы отделить содержимое между кавычками (в предположении, имеется ровно два в каждой записи), вы просто разделить строку на \\\" (убежали обратной косой черты и кавычки):

y <- strsplit(x, split = "\\\"")

Если все записи заканчиваются кавычек, это даст вам список записей с двумя значениями, а второе значение в каждой записи - ваша строка.

[[1]] 
[1] "tmp_ezg."   "dr_HE_10691" 
[[2]] 
[1] "tmp_ezg."   "dr_MV_0110200016" 
[[3]] 
[1] "tmp_ezg."   "dr_MV_0111290017"

источник

2016-06-03 08:34:11 sebastianmm

Спасибо за вход strsplit(). Ответ @lukeA работает более красиво, хотя – andrasz

содержания подстроки в кавычках

ответ

Смежные вопросы