2015-05-19 3 views
1

Мы трубопровод, который выглядит следующим образом:Dataflow ошибка - "Источники слишком велики Лимит 5.00Ti."

BigQuery -> Pardo -> BigQuery

В таблице есть ~ 2B строк и просто до 1 ТБ.

После запуска чуть более 8 часов, работа произошла следующая ошибка:

May 19, 2015, 10:09:15 PM 
S09: (f5a951d84007ef89): Workflow failed. Causes: (f5a951d84007e064): BigQuery job "dataflow_job_17701769799585490748" in project "gdfp-xxxx" finished with error(s): job error: Sources are too large. Limit is 5.00Ti., error: Sources are too large. Limit is 5.00Ti. 

Работа идентификатор: 2015-05-18_21_04_28-9907828662358367047

Это большой стол, но это не так этот большой и Dataflow должен легко справиться с этим. Почему он не может справиться с этим вариантом использования?

Кроме того, несмотря на то, что задание не удалось, оно все еще показывает его как успешное на диаграмме. Зачем?

enter image description here

ответ

0

Я думаю, что ошибка означает, что данные, которые вы пытаетесь написать BigQuery превышает 5TB limit set by BigQuery для одного импорта задания.

Один из способов обойти это ограничение может заключаться в том, чтобы разделить записи BigQuery на несколько заданий с помощью нескольких преобразований записи, чтобы преобразование Write не превышало 5 ТБ.

Перед преобразованием записи у вас может быть DoFn с N выходами. Для каждой записи произвольно назначать ее одному из выходов. Каждый из N выходов может иметь собственное преобразование BigQuery.Write. Преобразования записи могут добавлять данные в одну и ту же таблицу, чтобы все данные попадали в одну и ту же таблицу.

+0

Хорошо, что отстой. Я, хотя Dataflow, мог «... выполнять задачи обработки данных любого размера». ?! И это всего лишь 5 ТБ. Я действительно не думаю, что нам нужно было бы применить такие обходные пути в наших конвейерах, чтобы обойти ограничения размера данных - даже если эти ограничения находятся на стороне BigQuery. То, как данные загружаются в BigQuery через службу Dataflow, должно быть полностью абстрактным для пользователей, и нам не нужно иметь дело с этим. –

+0

PolleyG, спасибо за ваши отзывы. Мы активно смотрим на уменьшение этого трения по краям в течение бета-периода. Спасибо, что сообщили об этом, это очень полезно. –

Смежные вопросы