2014-12-31 3 views
1

Любые предложения о том, как обойти эту ошибку наряду с уменьшением числа преобразований в потоке (или, вероятно, уменьшения суммарного сериализованного размера всех объектов преобразования в поточном графе)?Google Cloud Dataflow: 413 Request Entity Too Large

Спасибо,

+0

'dataflowJobFile' позволяет создать спецификационный файл задания ~ 2.3Mb –

ответ

2

В настоящее время поток данных имеет ограничение в нашей системе, которое запрашивает запросы на уровне 1 МБ. Размер задания специально привязан к представлению JSON о трубопроводе; более крупный трубопровод означает более крупный запрос.

Мы работаем над увеличением этого предела. В то же время, вы можете обойти это ограничение, разбив свою работу на более мелкие рабочие места, так что каждое описание работы занимает менее 1 Мб

Чтобы оценить размер вашего запроса запуска трубопровода с опцией

--dataflowJobFile = <path to output file> 

Это будет записывать JSON-представление вашей работы в файл. Размер этого файла - это хорошая оценка размера запроса. Фактический размер запроса будет немного больше из-за дополнительной информации, которая является частью запроса.

Благодарим за терпение.

Мы обновим эту тему после того, как предел будет увеличен.

0

Вы сериализация большого количества данных, как часть вашей спецификации трубопровода? Например, используете ли вы Create Transform для создания PCollections из встроенных данных?

Не могли бы вы поделиться файлом json? Если вы не хотите публично публиковать его, вы можете отправить его по электронной почте в команду Dataflow.

+0

Спасибо за предложение. Я отправил сгенерированный файл json по электронной почте в команду потока данных. Что касается ваших вопросов, а) см. Мой комментарий к исходному вопросу, б) Нет, но не имеет значения, какой тип данных сериализуется? –

Смежные вопросы