2014-11-03 4 views
1

Я загрузил файл из 80 000 000 наблюдений 10 + 1 (также пробовал с 20 + 1 и 100 + 1) переменными, все переменные двоичные (0,1), за исключением веса (float) и выполняются некоторые простые запросы, как:запросов на bigquery занимает больше времени

SELECT sum(col1),sum(wt*col1),sum(col2),sum(wt*col2),sum(col3),sum(wt*col3),sum(col4),sum(wt*col4),sum(col5),sum(wt*col5),sum(col6),sum(wt*col6) 
,sum(col7),sum(wt*col7),sum(col8),sum(wt*col8),sum(col9),sum(wt*col9),sum(col10),sum(wt*col10) 
FROM [bigquery_dummy_dataset.bin_006b]; 

этот запрос, принимая 5.6 secs approx при выполнении его 100 columns is taking 21 secs approx. Я чувствую это медленнее, чем другие существующие технологии баз данных (в sql-сервере с использованием индексов мы добились более высокой производительности). Однако я хочу обработать больше данных (до 2000 переменных).

Я что-то не так? Есть ли способ ускорить прошедшее время?

ответ

2

1) Big Query - это высоко масштабируемая база данных, прежде чем быть «супер быстрой» базой данных. Он предназначен для обработки ОГРОМНОГО объема данных, распределяющих обработку между несколькими различными машинами, с использованием технологии Dremel. Поскольку он предназначен для использования нескольких машин и параллельной обработки, вы должны ожидать, что они обладают супер-масштабируемостью с хорошей производительностью.

2) BigQuery - это актив, когда вы хотите проанализировать миллиарды строк.

Например: анализ всех ревизий в Википедии через 5-10 секунд неплохо, не так ли? Но даже гораздо меньшая таблица займет примерно одно и то же время, даже если имеет 10k строк.

3) Под этим размером вам будет лучше использовать более традиционные решения для хранения данных, такие как Cloud SQL или хранилище данных App Engine. Если вы хотите сохранить возможности SQL, Cloud SQL - это лучшее предположение.

Sybase IQ часто устанавливается в одной базе данных и не использует Dremel. Тем не менее, это будет быстрее, чем Big Query во многих сценариях ... как и было предусмотрено.

4) Конечно, характеристики отличаются от выделенной среды. Вы получаете выделенную среду для 20K $ в месяц.

Смежные вопросы