Я загрузил файл из 80 000 000 наблюдений 10 + 1 (также пробовал с 20 + 1 и 100 + 1) переменными, все переменные двоичные (0,1), за исключением веса (float) и выполняются некоторые простые запросы, как:запросов на bigquery занимает больше времени
SELECT sum(col1),sum(wt*col1),sum(col2),sum(wt*col2),sum(col3),sum(wt*col3),sum(col4),sum(wt*col4),sum(col5),sum(wt*col5),sum(col6),sum(wt*col6)
,sum(col7),sum(wt*col7),sum(col8),sum(wt*col8),sum(col9),sum(wt*col9),sum(col10),sum(wt*col10)
FROM [bigquery_dummy_dataset.bin_006b];
этот запрос, принимая 5.6 secs approx
при выполнении его 100 columns is taking 21 secs approx
. Я чувствую это медленнее, чем другие существующие технологии баз данных (в sql-сервере с использованием индексов мы добились более высокой производительности). Однако я хочу обработать больше данных (до 2000 переменных).
Я что-то не так? Есть ли способ ускорить прошедшее время?