2016-03-21 2 views
1

Я пытаюсь сократить число кадров с большим количеством дубликатов в dataframe с каждой конкретной записью только один раз, но с переменной, называемой «counter», как часто эта переменная возникает в dataframe , Теперь у меня есть некоторые проблемы с регулярными выражениями ..Как указать шаблон более точно с regexp

length(grep(kh$gem[124],kh$gem)) 

засчитывается как часто kh$gem[124] находится в dataframe. Проблема заключается в том, что

> kh$gem[124] 
[1] "Salzburg" 

и

> grep(kh$gem[124],kh$gem) 
    [1] 120 124 125 126 127 128 134 141 144 146 148 

но если я смотрю в эти переменные существуют некоторые I, которые на самом деле «матч» регулярное выражение, но не совсем те, кого я ищу.

> kh$gem[c(120,124,125,126,127,128,134,141,144,146,148)] 
[1] "Oberndorf bei Salzburg" "Salzburg" "Salzburg" "Salzburg"    
[5] "Salzburg" "Salzburg" "Salzburg" "Salzburg"    
[9] "Salzburg" "Oberndorf bei Salzburg" "Salzburg"  

Как я могу устранить те, которые являются «Оберндорф бэй Зальцбург»?

Спасибо за помощь. С наилучшими пожеланиями!

+0

'sum (kh $ gem% in% kh $ gem [124])'? – Cath

ответ

1

Добавить якоря.

grep(paste0("^" , kh$gem[124] , "$"),kh$gem) 
Смежные вопросы