2015-09-15 2 views
-2

Необходимо назначить уникальный идентификатор группы на основе комбинации нескольких значений столбцов из одной таблицы. Значения иногда уникальны.SSIS Fuzzy Группировка для группировки данных для генерации Уникальная идентификация группы Значение

Любая форма SQL, SSIS, DQS будет работать для запроса ниже. Пробовал DQS, но не дошел до места назначения. Таблица имеет около 2 миллионов рядов.

Например, first_name, last_name и Email_address значения соответствуют, но PhoneNumber отличается. Все соответствует customerId может отличаться.

Ниже приведены примеры данных. Конечный результат в последнем столбце называется finalgroupid.

customerid EmailAddress First_Name Middle_Name LastName Address          Phone  Final Group ID 
100   [email protected]   JNE     PIN 1 Wills PL Australia NJ 90210     1111111111  A123 
206        JNE     PIN 1 Wills PL Australia NJ 90210         A123 
206   [email protected]   JNE     PIN 1 Wills PL Australia NJ 90210     1111111111  A123 
206   [email protected]   JNE     PIN 1 Wills PLACE Australia NJ 90210    1111111111  A123 
206   [email protected]   JNE     PIN 22 OX ST EW #A HURAT MA 30000     1111111111  A123 
206   [email protected]   JNE     PIN 22 OX ST EW UNIT A HURAT MA 30000    1111111111  A123 
206   [email protected]   JNE     PIN 22 OX ST EW UNIT A HURAT MA 30000    2222222222  A123 
206   [email protected]   JNE     PIN C/O I AM THE BEST 35 FABULOUS OUTBACK CT 12345 1111111111  A123 
206   [email protected]   JNE     PIN C/O I AM THE BEST 35 FABULOUS OUTBACK CT 12345 2222222222  A123 
712   [email protected]   And     PIN 1 MOUNT Everest Frace GA 54358     2222222222  A123 
712   [email protected]   JNE     PIN 1 Wills PL Australia NJ 90210     1111111111  A123 
791   [email protected]  M H     JSN 63 AL RD VALLEY NM 10001      8888888888  A124 
791   [email protected]  MAR     JSN 21 SUPERHIT CIR BOMBAY HI 11231     8888888888  A124 
791   [email protected]  MAR  H   JSN 63 AL RD VALLEY NM 10001      8888888888  A124 
799   [email protected]  M H     JSN 63 AL RD VALLEY NM 10001      8888888888  A124 
799   [email protected]  MAR  H   JSN 63 AL RD VALLEY NM 10001      8888888888  A124 
799   [email protected]  SEA     JSN 21 SUPERHIT CIR BOMBAY HI 11231     8888888888  A124 
805   [email protected]  M H     JSN 27 W WOOD Mtn VALLEY NM 10000     8888888888  A124 
805   [email protected]  MAR  H   JSN 27 W WOOD Mtn VALLEY NM 10000     8888888888  A124 
805   [email protected]  V P     C H 21 SUPERHIT CIR BOMBAY HI 11231     8888888888  A124 
805   [email protected]  VICTOR    HKS 21 SUPERHIT CIR BOMBAY HI 11231     8888888888  A124 
805   [email protected]  VICTOR P   CAS 21 SUPERHIT CIR BOMBAY HI 11231     8888888888  A124 
809   [email protected]  M H     JSN 27 W WOOD Mtn VALLEY NM 10000     8888888888  A124 
809   [email protected]  MAR     STK 21 SUPERHIT CIR BOMBAY HI 11231     8888888888  A124 
809   [email protected]  MAR  H   JSN 27 W WOOD Mtn VALLEY NM 10000     8888888888  A124 
815   [email protected]   M H     JSN 27 W WOOD Mtn VALLEY NM 10000     8888888888  A124 
815   [email protected]   MAR  H   JSN 27 W WOOD Mtn VALLEY NM 10000     8888888888  A124 
815   [email protected]   MAV     JSN 21 SUPERHIT CIR BOMBAY HI 11231     8888888888  A124 
815   [email protected]   MAV     JSN 27 W WOOD Mtn VALLEY NM 10000     8888888888  A124 

Пожалуйста, помогите. Заранее спасибо.

+0

Ваш матч логика разве ясно. Пожалуйста, объясните, как вы группируете данные. –

+0

Сначала попробуйте совместить LastName & FirstName, затем сопоставить телефон, затем сопоставить адрес электронной почты, затем адрес & then customerid. – user749525

+0

Снова какая логика? Если у matach LastName и FirstName есть один идентификатор группы? –

ответ

Смежные вопросы