Межузловая связь

Каким образом можно обрабатывать межузловые связи с использованием пакета данных Java SDK. Смысл, действительно ли владелец задания, представленный в конвейере Dataflow, имеет мелкозернистый контроль над обслуживанием и планированием кластеров?Межузловая связь

Кажется, что это автоматическое управление для пользователя, так как Dataflow использует контейнер VM, который регистрируется на сервере API Kubernetes.

Если требуется влияние на планирование кластеров, я вижу две возможности: a) доступ к сырым сокетам (если они доступны, как?) Или b) вводят код для межузловой связи типа «Акка» в Spark. Для этого можно было бы разработать пользовательские функции в Transforms или PCollections или либо на основе необходимости?

источник

2015-11-05 Latha Krishnaswamy

im no expert, но связь между узлами AFAIK невозможна и упомянута в документации. посмотрите на google dataproc. –

Как упоминалось в вопросе, Dataflow является полностью управляемым сервисом, поэтому нет необходимости управлять кластером вообще. В результате API не влияет на планирование кластеров и т. Д.

Если вам нужно передать данные между преобразованиями, вы можете посмотреть side inputs. Это позволяет транслировать PCollection и использовать его в качестве дополнительного входа в DoFn.

Если вы можете поделиться более конкретным вариантом использования, мы могли бы предоставить более подробную информацию о том, что доступно.

источник

2015-11-17 19:13:11

Межузловая связь

ответ

Смежные вопросы