Я вычисляю большое количество первых сообщений из одного набора данных. Мои очень мелкие тесты отлично работают. Но когда я увеличиваю количество отчетов в топ-n, задание отклоняется как слишком большое.Как я могу уменьшить нагрузку на поток данных?
Работа JSON (через --dataflowJobFile) составляет 19 МБ.
Этот эксперимент был посвящен 200 отчетам о начале и не охватывает все типы отчетов. В масштабах производства мы будем обрабатывать 10 000 новых отчетов из нескольких наборов данных.
Выполнение параллельных заданий нецелесообразно, так как рабочие подразделения должны быть разделены в неудобных способов, и одновременно ограничения работы только 25.
я могу поделиться иды работу и работу файлов в частном порядке с командой GCDF.
Как относятся к первому докладу? Что делает их 200 различными отчетами top-N, а не только топ-N-ключ для 200 ключей? –
GCDF имеет ограничение на размер заданий размером 20 МБ - так что это вероятная причина отклонения вашей работы. Какие изменения в вашем коде при переходе от малогабаритного теста к полному тесту? Кроме того, можете ли вы поделиться идентификаторами работы? – pjesa
ID вакансии: 2016-06-07_18_47_26-16910805709550021335 Я не могу начать полноразмерную работу. Этот размер всего лишь 1/3. –