Необходимо назначить уникальный идентификатор группы на основе комбинации нескольких значений столбцов из одной таблицы. Значения иногда уникальны.SSIS Fuzzy Группировка для группировки данных для генерации Уникальная идентификация группы Значение
Любая форма SQL, SSIS, DQS будет работать для запроса ниже. Пробовал DQS, но не дошел до места назначения. Таблица имеет около 2 миллионов рядов.
Например, first_name
, last_name
и Email_address
значения соответствуют, но PhoneNumber
отличается. Все соответствует customerId
может отличаться.
Ниже приведены примеры данных. Конечный результат в последнем столбце называется finalgroupid
.
customerid EmailAddress First_Name Middle_Name LastName Address Phone Final Group ID
100 [email protected] JNE PIN 1 Wills PL Australia NJ 90210 1111111111 A123
206 JNE PIN 1 Wills PL Australia NJ 90210 A123
206 [email protected] JNE PIN 1 Wills PL Australia NJ 90210 1111111111 A123
206 [email protected] JNE PIN 1 Wills PLACE Australia NJ 90210 1111111111 A123
206 [email protected] JNE PIN 22 OX ST EW #A HURAT MA 30000 1111111111 A123
206 [email protected] JNE PIN 22 OX ST EW UNIT A HURAT MA 30000 1111111111 A123
206 [email protected] JNE PIN 22 OX ST EW UNIT A HURAT MA 30000 2222222222 A123
206 [email protected] JNE PIN C/O I AM THE BEST 35 FABULOUS OUTBACK CT 12345 1111111111 A123
206 [email protected] JNE PIN C/O I AM THE BEST 35 FABULOUS OUTBACK CT 12345 2222222222 A123
712 [email protected] And PIN 1 MOUNT Everest Frace GA 54358 2222222222 A123
712 [email protected] JNE PIN 1 Wills PL Australia NJ 90210 1111111111 A123
791 [email protected] M H JSN 63 AL RD VALLEY NM 10001 8888888888 A124
791 [email protected] MAR JSN 21 SUPERHIT CIR BOMBAY HI 11231 8888888888 A124
791 [email protected] MAR H JSN 63 AL RD VALLEY NM 10001 8888888888 A124
799 [email protected] M H JSN 63 AL RD VALLEY NM 10001 8888888888 A124
799 [email protected] MAR H JSN 63 AL RD VALLEY NM 10001 8888888888 A124
799 [email protected] SEA JSN 21 SUPERHIT CIR BOMBAY HI 11231 8888888888 A124
805 [email protected] M H JSN 27 W WOOD Mtn VALLEY NM 10000 8888888888 A124
805 [email protected] MAR H JSN 27 W WOOD Mtn VALLEY NM 10000 8888888888 A124
805 [email protected] V P C H 21 SUPERHIT CIR BOMBAY HI 11231 8888888888 A124
805 [email protected] VICTOR HKS 21 SUPERHIT CIR BOMBAY HI 11231 8888888888 A124
805 [email protected] VICTOR P CAS 21 SUPERHIT CIR BOMBAY HI 11231 8888888888 A124
809 [email protected] M H JSN 27 W WOOD Mtn VALLEY NM 10000 8888888888 A124
809 [email protected] MAR STK 21 SUPERHIT CIR BOMBAY HI 11231 8888888888 A124
809 [email protected] MAR H JSN 27 W WOOD Mtn VALLEY NM 10000 8888888888 A124
815 [email protected] M H JSN 27 W WOOD Mtn VALLEY NM 10000 8888888888 A124
815 [email protected] MAR H JSN 27 W WOOD Mtn VALLEY NM 10000 8888888888 A124
815 [email protected] MAV JSN 21 SUPERHIT CIR BOMBAY HI 11231 8888888888 A124
815 [email protected] MAV JSN 27 W WOOD Mtn VALLEY NM 10000 8888888888 A124
Пожалуйста, помогите. Заранее спасибо.
Ваш матч логика разве ясно. Пожалуйста, объясните, как вы группируете данные. –
Сначала попробуйте совместить LastName & FirstName, затем сопоставить телефон, затем сопоставить адрес электронной почты, затем адрес & then customerid. – user749525
Снова какая логика? Если у matach LastName и FirstName есть один идентификатор группы? –