2017-01-07 1 views
3

Привет, ребята, я узнал об Amazon EMR в последнее время, и, насколько я знаю, EMR-кластер позволяет нам выбирать 3 узла.Amazon Emr - Что нужно узлам Task, когда у нас есть узлы ядра?

  1. Мастер, который запускает демонов Primary Hadoop, таких как NameNode, Job Tracker и Resource Manager.
  2. Ядро, которое запускает демоны Datanode и Tasktracker.
  3. Задача, в которой работает только TaskTracker.

Вопрос к вам, ребята, почему EMR предоставляет узлы задач? Где, как hadoop, предполагает, что у нас должен быть демон Datanode и демон Tasktracker на том же узле. Какова логика Амазонки за это? Вы можете хранить данные в потоке S3 на HDFS на основных узлах, выполнять обработку на HDFS, кроме совместного использования данных с HDFS, с узлами задач, которые в этом случае будут увеличивать IO на голове. Поскольку, насколько я знаю в hadoop, TaskTrackers работают на DataNodes, которые имеют блоки данных для этой конкретной задачи, то почему TaskTrackers на разных узлах?

ответ

0

Один вариант использования - если вы используете точечные экземпляры как узлы задач. Если его достаточно дешево, может быть стоит добавить некоторую вычислительную мощность в ваш EMR-кластер. Это было бы главным образом для не чувствительных задач.

Смежные вопросы