Я пытаюсь найти способ пометить дублированные случаи, подобные этому question.Postgresql: маркировка и идентификация дубликатов
Однако, вместо подсчета вхождения дублированных значений, я хотел бы отметить их как 0
и 1
, для дублированных и уникальных случаев соответственно. Это очень похоже на функцию SPSS
для идентификации дубликатов. Например, если у меня есть набор данных, как:
Name State Gender
John TX M
Katniss DC F
Noah CA M
Katniss CA F
John SD M
Ariel FL F
И если бы я хотел, чтобы флаг те, с дублированным именем, поэтому вывод будет что-то вроде этого:
Name State Gender Dup
John TX M 1
Katniss DC F 1
Noah CA M 1
Katniss CA F 0
John SD M 0
Ariel FL F 1
бонус будет утверждение запроса который будет обрабатывать, какой случай выбрать при определении уникального случая.
1) Есть ли лет Ур таблица имеет первичный ключ (например, идентификатор)? 2) ПОЧЕМУ {Джон, Техас] дуп, а {Джон, SD} нет? 3) Почему {Ариэль, Флорида} дублирует? 4) то же самое для {Noah, CA} – wildplasser
В этом примере мы можем предположить, что имена являются первичными ключами. Возможно, я сформулировал это неправильно, но Ариэль и Ной не дубликаты. Это первое появление Ариэля и Ноя, поэтому оно помечено как 1. В то время как 2-й Катнисс и Джон равны нулю, потому что раньше были Катнисс и Джон (строки 1 и 2). –
У вас был знак перевернутый. (поэтому я назвал столбец результатов «nodup») – wildplasser