Я работаю в SAS, и у меня есть набор данных с 2 столбцами, и я хочу не только удалить дубликаты, но и «почти» дубликаты. Данные выглядит следующим образом:Удаление «почти дубликатов» с использованием SAS или Excel
**Brand Product**
Coca Cola Coca Cola Light
Coca Cola Coca Cola Lgt
Coca Cola Cocacolalight
Coca Cola Coca Cola Vanila
Pepsi Pepsi Zero
Pepsi Pepsi Zro
я не знаю, если это действительно возможно, но то, что я хотел бы файл, чтобы посмотреть, как после удаления «дубликатов», как то:
**Brand Product**
Coca Cola Coca Cola Light
Coca Cola Coca Cola Vanila
Pepsi Pepsi Zero
У меня нет предпочтения, если у конечной таблицы будет, например, «Pepsi Zero» или «Pepsi Zro», если нет «повторяющихся» значений.
Я думал, есть ли способ сравнить, например, первые 4-5 букв, и если они совпадают, то рассматривать их как дубликаты. Но, конечно, я открыт для предложений. Если есть способ сделать даже в excel, мне было бы интересно его услышать.
Примечание: в этом процессе существует целый поле, и это очень сложно сделать эффективно. – Joe