извлечение текста из буквенно-цифрового вектора в R

-3

У меня есть данные, как показано ниже, и необходимо извлечь текст перед любым номером. или если мы можем выделить текст и номер, то это было бы здоровоизвлечение текста из буквенно-цифрового вектора в R

df<-c("axz123","bww2","c334")

выход

"axz", "bww", "c"

или

"axz","bww","c" 
"123","2","334"

источник

2016-03-29 Nts

См 'помощи ("regmatches")'. – Roland

Мы можем сделать:

df <- c("axz123","bww2","c334") 
gsub("\\d+", "", df) 
#[1] "axz" "bww" "c" 
gsub("(\\D+)", "", df) 
#[1] "123" "2" "334"

Для вашего другого примера:

df <- "BAILEYS IRISH CREAM 1.75 LITERS REGULAR_NOT FLAVORED" 
gsub("\\d.*", "", df) 
#[1] "BAILEYS IRISH CREAM " 
gsub("[A-Z_ ]*", "", df) 
#[1] "1.75"

источник

2016-03-29 08:05:00 jogo

Спасибо Ало .. это сработало. Могу ли я спросить вас о лихорадке? где я могу узнать этот трюк на gsub(). например, когда использовать «D +» или «d» и т. д., потому что часто сталкиваются с подобными проблемами. Спасибо :) – Nts

Прочтите справочную страницу о 'regex' и выполните множество упражнений. – jogo

Мы можем использовать [:alpha:], чтобы соответствовать буквенные символы и сочетать это с gsub() и отрицанием для удаления всех символов, которые не являются алфавитами:

gsub("[^[:alpha:]]", "", df) 
#[1] "axz" "bww" "c"

Чтобы получить только неалфавитные символы мы можем отбросить отрицание ^:

gsub("[[:alpha:]]", "", df) 
#[1] "123" "2" "334"

источник

2016-03-29 08:01:29 RHertel

Спасибо за ваш ввод его быстро, но проблема немного сложная, у меня есть данные, такие как «BAILEYS IRISH CREAM 1.75 LITERS REGULAR_NOT FLAVORED», а выход нужен «BAILEYS IRISH CREAM» и «1.75». извините за путаницу. – Nts

@NitinPatil Это должен быть другой вопрос. Пожалуйста, не публикуйте простой пример и ожидайте, что другие ответят на ваши сложные данные. Даже в новой строке есть пробелы. Итак, совершенно другой вопрос. – akrun

@akrun: я извиняюсь за путаницу, я просто пытался упростить вещи – Nts

Использование str_extract и регулярных выражений. Мы сопоставляем один или несколько символов перед любым номером ((?=\\d)) и извлекаем его.

library(stringr) 
str_extract(df, "[[:alpha:]]+(?=\\d)") 
#[1] "axz" "bww" "c"

Если нужно отделить числовой и нечисловой, strsplit можно использовать

lst <- strsplit(df, "(?<=[^0-9])(?=[0-9])", perl=TRUE)

источник

2016-03-29 08:10:49 akrun

извлечение текста из буквенно-цифрового вектора в R

ответ

Смежные вопросы