Не уверен, что это подходящее место для запроса, но в настоящее время я пытаюсь запустить задание потока данных, которое будет разбивать источник данных на несколько кусков в нескольких местах. Тем не менее, я чувствую, что если я попытаюсь написать слишком много таблицы сразу в одном задании, скорее всего, если задача потока данных завершится с ошибкой исключения HTTP-транспорта, и я предполагаю, что существует некоторое ограничение на количество операций ввода-вывода в условия источника и раковины, которые я мог бы обернуть в одну работу?Множественный экспорт с использованием потока данных Google
Чтобы избежать этого сценария, лучшим решением, которое я могу придумать, является разделить это одно задание на несколько заданий потока данных, однако для него это будет означать, что мне нужно будет обрабатывать один и тот же источник данных несколько раз (один раз, для которого задание потока данных). Пока все в порядке, но в идеале я хочу избежать этого, если позже, если мой источник данных станет огромным.
Поэтому я задаюсь вопросом, существует ли какое-либо эмпирическое правило о том, сколько источников данных и раковины я могу объединить в одну устойчивую работу? И есть ли другое лучшее решение для моего варианта использования?
спасибо ben, я мог бы ожидать примерно 4 источника, но около 60 ~ 200 выходного потока в одном задании потока данных, для которого я не уверен, может ли быть слишком много или нет. Местоположение поддерживается, поскольку я ожидаю, что я либо использую gcs, либо bq. источник данных все статично (так что задание пакетного ввода данных), но в будущем может быть возможно подключить источник потоковой передачи, но это просто необязательный –