2015-11-05 4 views
1

Каким образом можно обрабатывать межузловые связи с использованием пакета данных Java SDK. Смысл, действительно ли владелец задания, представленный в конвейере Dataflow, имеет мелкозернистый контроль над обслуживанием и планированием кластеров?Межузловая связь

Кажется, что это автоматическое управление для пользователя, так как Dataflow использует контейнер VM, который регистрируется на сервере API Kubernetes.

Если требуется влияние на планирование кластеров, я вижу две возможности: a) доступ к сырым сокетам (если они доступны, как?) Или b) вводят код для межузловой связи типа «Акка» в Spark. Для этого можно было бы разработать пользовательские функции в Transforms или PCollections или либо на основе необходимости?

+0

im no expert, но связь между узлами AFAIK невозможна и упомянута в документации. посмотрите на google dataproc. –

ответ

2

Как упоминалось в вопросе, Dataflow является полностью управляемым сервисом, поэтому нет необходимости управлять кластером вообще. В результате API не влияет на планирование кластеров и т. Д.

Если вам нужно передать данные между преобразованиями, вы можете посмотреть side inputs. Это позволяет транслировать PCollection и использовать его в качестве дополнительного входа в DoFn.

Если вы можете поделиться более конкретным вариантом использования, мы могли бы предоставить более подробную информацию о том, что доступно.