Мы трубопровод, который выглядит следующим образом:Dataflow ошибка - "Источники слишком велики Лимит 5.00Ti."
BigQuery -> Pardo -> BigQuery
В таблице есть ~ 2B строк и просто до 1 ТБ.
После запуска чуть более 8 часов, работа произошла следующая ошибка:
May 19, 2015, 10:09:15 PM
S09: (f5a951d84007ef89): Workflow failed. Causes: (f5a951d84007e064): BigQuery job "dataflow_job_17701769799585490748" in project "gdfp-xxxx" finished with error(s): job error: Sources are too large. Limit is 5.00Ti., error: Sources are too large. Limit is 5.00Ti.
Работа идентификатор: 2015-05-18_21_04_28-9907828662358367047
Это большой стол, но это не так этот большой и Dataflow должен легко справиться с этим. Почему он не может справиться с этим вариантом использования?
Кроме того, несмотря на то, что задание не удалось, оно все еще показывает его как успешное на диаграмме. Зачем?
Хорошо, что отстой. Я, хотя Dataflow, мог «... выполнять задачи обработки данных любого размера». ?! И это всего лишь 5 ТБ. Я действительно не думаю, что нам нужно было бы применить такие обходные пути в наших конвейерах, чтобы обойти ограничения размера данных - даже если эти ограничения находятся на стороне BigQuery. То, как данные загружаются в BigQuery через службу Dataflow, должно быть полностью абстрактным для пользователей, и нам не нужно иметь дело с этим. –
PolleyG, спасибо за ваши отзывы. Мы активно смотрим на уменьшение этого трения по краям в течение бета-периода. Спасибо, что сообщили об этом, это очень полезно. –