Похоже, у меня есть еще одна проблема дело со строками в R ...Обнаружение дубликатов в строке
То, что я после довольно проста, но я до сих пор найти способ сделать это, несмотря на многие часы поиск здесь и в другом месте.
В принципе, у меня есть столбец в таблице данных («Уникальный идентификатор»), который содержит строку слов, которую я хочу классифицировать в зависимости от того, содержит ли она несколько экземпляров одного и того же слова.
снимок моих данных:
Unique ID
#[1,] Display-imp
#[2,] Display-clk
#[3,] Display-clk Display-imp Display-clk
#[4,] Display-imp Search Affiliate Display-imp
#[5,] Display-imp Display-imp
#[6,] Display-clk Display-clk Display-clk
Используя приведенные выше данные примера, я хотел бы создать новый столбец с флагом в нем для тех строк, которые содержат только несколько экземпляров одного и того же слова.
Таким образом, строки 1, 2, 5, 6 будут помечены под этим методом.
Я думал об использовании функции str_count из пакета stringr, но для этого требуется указать шаблон, который я хочу обнаружить, тогда как меня интересует только то, что какое-либо слово появляется несколько раз в строке. И в любом случае, я не знаю, что слова будут заранее, поэтому не могу указать какой-то список для ссылки.
Любая помощь очень ценится еще раз!
'strsplit',' unique' и 'length'? – A5C1D2H2I1M1N2O1R2T1
Как строки 1 и 2 содержат несколько экземпляров одного и того же слова, а 3 и 4 - нет? – rawr