2016-10-06 2 views
1

Я пытаюсь загрузить несколько записей в BigQuery, но для загрузки даже нескольких тысяч записей требуется много времени.Очень медленная загрузка данных в BigQuery

Я использую следующую команду для загрузки gzipped-файла JSON. Файл имеет ~ 2k строк с ~ 200 столбцов каждый:

./bin/bq load --project_id=my-project-id --source_format=NEWLINE_DELIMITED_JSON dataset.table /tmp/file.json.gz 
Waiting on bqjob_r3a269dd7388c7b8e_000001579a6e064f_1 ... (50s) 
Current status: DONE 

Эта команда занимает около 50 секунд для загрузки записей. Поскольку я хочу загрузить не менее 1 миллиона записей, это займет ~ 7 часов, что кажется слишком большим для инструмента, который должен обрабатывать петабайты данных.

Возможно ли ускорить процесс?

+1

Время не прогрессивно, это не займет много даже за 1 миллион. Запустить его. – Pentium10

ответ

0

Попробуйте использовать --nosync флаг. Это запустит асинхронную работу над bigQuery, показав, что она имеет гораздо лучшую производительность.

Оптимально я предлагаю хранить файл.json.gz внутри облачного хранилища Google.

./bin/bq load --nosync 
Смежные вопросы