Каким образом можно обрабатывать межузловые связи с использованием пакета данных Java SDK. Смысл, действительно ли владелец задания, представленный в конвейере Dataflow, имеет мелкозернистый контроль над обслуживанием и планированием кластеров?Межузловая связь
Кажется, что это автоматическое управление для пользователя, так как Dataflow использует контейнер VM, который регистрируется на сервере API Kubernetes.
Если требуется влияние на планирование кластеров, я вижу две возможности: a) доступ к сырым сокетам (если они доступны, как?) Или b) вводят код для межузловой связи типа «Акка» в Spark. Для этого можно было бы разработать пользовательские функции в Transforms или PCollections или либо на основе необходимости?
im no expert, но связь между узлами AFAIK невозможна и упомянута в документации. посмотрите на google dataproc. –