Для повышения производительности (например, для объединений) рекомендуется сначала вычислить статическую таблицу.Содержит ли статистика вычислительных таблиц в улье или импале ускоряет искру apache?
В улье я могу сделать ::
analyze table <table name> compute statistics;
В Impala:
compute stats <table name>;
ли моя искра приложения (чтение из улья таблиц) также извлекают выгоду из предварительно вычисленных статистики? Если да, то какой из них мне нужно запустить? Сохраняют ли они статистику в метафоре улья? Я использую искру 1.6.1 на 5.5.4 Cloudera
Примечание: В Документах искровых 1.6.1 (https://spark.apache.org/docs/1.6.1/sql-programming-guide.html) для параметра spark.sql.autoBroadcastJoinThreshold
я нашел подсказку:
Обратите внимание, что в настоящее время статистика поддерживаются только для таблиц Hive Metastore , в которых запущена команда ANALYZE TABLE COMPUTE STATISTICS noscan.