2016-03-10 2 views
1

Пожалуйста, помогите.R: Как выводить уникальные строки (текст) в кадре данных?

У меня есть кадр данных из почти 40 тыс. Точек данных (строк), а один из столбцов содержит текст. Например,

ID Text 
1 I love my mum I love my dad 
2 I live in AB I used to live in CD 
. . 
. . 

Я хочу его вывести следующим образом:

ID Text 
1 I love my mum dad 
2 I live in AB used to CD 
. . 
. . 

Я попытался unique() и make.unique(), но они не работают.

ответ

1

Я думаю, вы хотите удалить любое дублируемое слово из каждого предложения. В этом случае вы можете попробовать:

txt<-c("I love my mum I love my dad","I live in AB I used to live in CD") 
vapply(strsplit(txt,"\\s+"),function(x) paste(unique(x),collapse=" "),"") 
#[1] "I love my mum dad"  "I live in AB used to CD" 
+0

Здравствуйте, благодарю вас за помощь. Могу ли я узнать, для чего последний аргумент («»)? Является ли это значением функции, 'FUN.VALUE' из' function (x) '? Я думал, что это не может быть дополнительный аргумент из функции (x) ', поскольку он имеет только один аргумент. – HNSKD