2015-08-25 2 views
0

Мне нужно обработать большой (терабайт) набор данных (в основном изображений). Я думал использовать Hadoop YARN с HDFS для обработки этих данных. Идея состоит в том, чтобы глотать все данные в HDFS, а затем отправлять задания Hadoop для обработки данных. YARN развернет приложение обработки близко к данным и обработает их. Это нормально, если мое приложение обработки является файлом «jar». Если мое приложение для обработки изображений является докеревым изображением, возможно ли отправить задание в YARN, чтобы поданное приложение представляло собой изображение докеров (а не файл jar)? YARN должен развернуть приложение (изображение докеров) в узлах данных, чтобы начать обработку.Поддержка приложения Docker в Hadoop YARN

Я проверил Docker Container Executor, но он запускает контейнеры YARN внутри контейнеров Docker, и приложение (задание) по-прежнему является файлом jar, как показано в приведенной выше ссылке.

Google Kubernetes, похоже, соответствует моей потребности (для развертывания и управления изображениями докеров в кластере), но он не обеспечивает «HDFS-подобный» накопитель (следовательно, «перемещать приложение в данные, чем данные в приложение» не подходит) ,

Пожалуйста, дайте мне знать, существует ли какая-либо инфраструктура кластерного менеджера, которая может развернуть стандартные пакеты приложений (например, jar, rpm, docker) в кластере для доступа к совместно используемому/распределенному хранилищу данных.

Заранее спасибо.

ответ

0

Текущий исполнитель докеров в YARN не очень хорош, потому что, afaik, вам нужно заменить весь исполнитель и, по крайней мере, в то время, когда оно было введено, это была широкая настройка кластера.

HW делает что-то вокруг докера http://hortonworks.com/blog/docker-kubernetes-apache-hadoop-yarn/. Вы не упомянули об этом блоге, поэтому я размещаю его здесь.

Смежные вопросы