Я пытаюсь загрузить файл JSON в GoogleBigquery с помощью сценария на https://github.com/GoogleCloudPlatform/python-docs-samples/blob/master/bigquery/api/load_data_by_post.py с очень небольшими изменениями. Я добавилBigQuery сценарий стенает большой файл
,chunksize=10*1024*1024, resumable=True))
к MediaFileUpload.
Сценарий отлично работает для образца файла с несколькими миллионами записей. Фактический файл составляет около 140 ГБ с примерно 200 000 000 записей. insert_request.execute() всегда терпит неудачу с
socket.error: `[Errno 32] Broken pipe`
через полчаса или около того. Как это можно зафиксировать? Каждая строка меньше 1 КБ, поэтому она не должна быть проблемой квоты.
такой же вопрос здесь. http://stackoverflow.com/questions/38971523/insert-large-amount-of-data-to-bigquery-via-bigquery-python-library –
Исправлено форматирование и опечатки – Prune
Привет, Джаядеван, я в команде разработчиков BigQuery , и если вы хотите опубликовать проект и идентификатор задания, я мог бы взглянуть и посмотреть, что-то выделяется в наших журналах. – Tib51