Я пытаюсь автоматизировать процесс очистки данных. Мой набор данных выглядит так:Дублировать обнаружение + создать новый столбец с dplyr в R
ADDRESS PHONE TYPE 123 Willow Street 7429947 RESIDENTIAL 123 Willow Street 7426629 RESIDENTIAL 234 Butter Road 7564123 RESIDENTIAL
Это довольно большой - несколько сотен тысяч строк. Я хотел бы иметь возможность сделать следующее:
(1) Двойное обнаружение, поэтому я могу исключить «почти» -дублирующие строки.
(2) Создайте новый столбец для не дублированных данных - что-то вроде PHONE 2. Проблема в том, что я не могу заранее знать, есть ли только две повторяющиеся строки - может быть n.
Исход, мы надеемся, что-то вроде этого:
ADDRESS PHONE PHONE 2 TYPE 123 Willow Street 7429947 7426629 RESIDENTIAL 234 Butter Road 7564123 RESIDENTIAL
Я хотел бы сделать это с dplyr, но я вроде в недоумении, с чего начать. Любые указатели?
Каков ожидаемый выход в вышеупомянутом случае? Какую строку вы держите? Что делает что-то предполагаемым дубликатом? – Gopala
@Gopala - Спасибо - я отредактировал, чтобы включить ожидаемый результат. –
Является ли телефон единственным столбцом? Что, если адрес немного отличается? Ваш вопрос/требование все еще не ясны. – Gopala