2013-05-21 3 views
0

У меня есть таблица с 1,6 миллиардами строк. Я выполняю запрос, который использует поле group-by, которое имеет более 5 миллионов уникальных значений, а затем сортирует по сумме другого целочисленного значения в порядке убывания и, наконец, возвращает только верхнюю часть 10. Уведомление после более чем часа, этот запрос все еще застрял в рабочем состоянии.Запрос BigQuery чрезвычайно медленный

Я создал эту большую таблицу с помощью «bq cp -a». Первоначально эти исходные таблицы являются «bq cp» из 1000 меньших таблиц, и каждая таблица была загружена из более чем 12 сжатых файлов загрузки csv.

Я искал соответствующий вопрос и нашел «Google BigQuery is running queries slowly» упоминание о медлительности, вызванной фрагментацией из-за небольшого количества проглатывания. Является ли мой подход к заражению данными «слишком маленьким битом данных» во время приема пищи, что вызвало фрагментацию?

Возможно ли, что 5 миллионов уникальных значений слишком велики, и это является основной причиной медленного ответа?

ответ

0

Вчера у нас был латентный всплеск, а сегодня и меньше. Можете ли вы указать id id id задания для заданий запроса, которые заняли больше времени, чем вы ожидали?

+0

Это было завершено через 2 часа и 10 минут. Hproject id + jobid: atbflow: job_7c07ccb9417a4b34b241ffc2636e234c, время начала: 21 мая 11:22:14, продолжительность: 2:10:03, обработано байт: 63015028495 –

+0

Похоже, вы могли запустить это во время замедления временного запроса. Я просто выполнил ваш запрос, и он завершился через 11 секунд. Можете ли вы сообщить мне, если вы видите какие-либо дальнейшие проблемы? –

Смежные вопросы