Мне нужно обработать большой (терабайт) набор данных (в основном изображений). Я думал использовать Hadoop YARN с HDFS для обработки этих данных. Идея состоит в том, чтобы глотать все данные в HDFS, а затем отправлять задания Hadoop для обработки данных. YARN развернет приложение обработки близко к данным и обработает их. Это нормально, если мое приложение обработки является файлом «jar». Если мое приложение для обработки изображений является докеревым изображением, возможно ли отправить задание в YARN, чтобы поданное приложение представляло собой изображение докеров (а не файл jar)? YARN должен развернуть приложение (изображение докеров) в узлах данных, чтобы начать обработку.Поддержка приложения Docker в Hadoop YARN
Я проверил Docker Container Executor, но он запускает контейнеры YARN внутри контейнеров Docker, и приложение (задание) по-прежнему является файлом jar, как показано в приведенной выше ссылке.
Google Kubernetes, похоже, соответствует моей потребности (для развертывания и управления изображениями докеров в кластере), но он не обеспечивает «HDFS-подобный» накопитель (следовательно, «перемещать приложение в данные, чем данные в приложение» не подходит) ,
Пожалуйста, дайте мне знать, существует ли какая-либо инфраструктура кластерного менеджера, которая может развернуть стандартные пакеты приложений (например, jar, rpm, docker) в кластере для доступа к совместно используемому/распределенному хранилищу данных.
Заранее спасибо.