У нас есть большой набор данных в среде SAS, имеющий 30 миллионов записей и небольших наборов данных, имеющих по 100 000 записей.Объединение небольших наборов данных с большим набором данных
Мы должны оставить эти меньшие наборы данных с помощью «Большого» стола, и для соединения меньшего набора данных с большим набором данных требуется около 30-40 минут.
Если мы выполняем работу по 5-6 наборов данных по отдельности, это заняло много времени. Если мы объединим все эти наборы данных в одном наборе данных, а затем сделаем левое соединение, потребуется ли меньше времени по сравнению с индивидуальным? Кроме того, в WORK есть пространственный хруст, поэтому мы должны это учитывать.
Как вы читаете эти наборы данных? Есть ли у вас база данных SQL? Или вы звоните в REST API? –
@ evgeny.myasishchev мы используем предприятие SAS, поэтому все наборы данных находятся на SAS. нет вызова API. – rns
Если у вас достаточно ОЗУ (размер небольших таблиц меньше ОЗУ), идеальным решением является SAS 'hash table'. –