Использование R. Базовый пакет, dplyr или data.table - все в порядке для меня. Мои данные - ~ 1000 строк по 20 столбцов. Я ожидаю около 300 дубликатов.R - найти и перечислить повторяющиеся строки на основе двух столбцов
Я хотел бы сделать что-то вроде следующего, но с одним изменением:
Match/group duplicate rows (indices)
Я хотел бы найти, не полностью дублированные строки, а строки дублируются в двух столбцах. Например, если эта входная таблица:
File T.N ID Col1 Col2
BAI.txt T 1 sdaf eiri
BAJ.txt N 2 fdd fds
BBK.txt T 1 ter ase
BCD.txt N 1 twe ase
Если я хочу найти дубликаты в TN & ID только, я в конечном итоге со следующей таблицей:
File T.N ID Col1 Col2
BAI.txt T 1 sdaf eiri
BBK.txt T 1 ter ase
Это пока единственный что, похоже, не имеют случайных синглов. У других, похоже, есть проблемы, если столбец идентификатора совпадает, но TN не делает (когда я пытаюсь использовать свои реальные данные). –