У меня есть таблица улья table_perm, у которой есть миллион строк. Ежедневные новые данные добавляются в эту таблицу из другой таблицы hive, table_temp.Поиск уникальных значений в таблице hive
Скажем таблицы, как показано ниже:
table_perm id,col2,col3,ts 1,a,b,t1 2,d,e,t1 3,g,h,t1 4,j,k,t2 5,a,e,t2 6,h,d,t2
table_temp id,col2,col3,ts 6,h,k,t3 7,d,r,t3 8,a,h,t3 9,t,q,t3
и мой окончательный вывод должен быть, id,col2,col3,ts 1,a,b,t1 2,d,e,t1 3,g,h,t1 4,j,k,t2 5,a,e,t2 6,h,k,t3 7,d,r,t3 8,a,h,t3 9,t,q,t3
так в основном Я должен проверить здесь, если идентификатор уникален, а затем добавить данные. Если идентификатор не уникален, добавьте последнюю запись.
Каким должен быть мой подход, чтобы найти уникальное значение id и вставить в table_perm с учетом table_perm, является огромным, проверка каждого значения столбца id
может быть утомительным.
P.S. : column ts - временная метка и инкрементное обновление происходит один раз в день. table_perm огромен.
Что ваш вопрос? Правильно ли добавлены данные? –
@GordonLinoff: обновил вопрос. – user2810706