2013-10-02 2 views
4

Я знаю, что EC2 более гибкая, но больше работает над EMR. Однако с точки зрения затрат, при использовании EC2, вероятно, для томов EC2 требуются тома EBS, тогда как AWS просто передает данные из S3. Таким образом, хруст числа в калькуляторе AWS, хотя для EMR нужно также заплатить за EC2, EMR станет дешевле EC2 ?? Я здесь не прав? Конечно, EC2 с EBS, вероятно, быстрее, но стоит ли это?EMR vs EC2/Hadoop на AWS

спасибо, Matt

+0

http://stackoverflow.com/a/15178916/610305 – Amar

ответ

2

Вы правы, что ЭЙ используют экземпляр-магазин поддержанных экземпляры EC2, а не EBS. Тем не менее, вам нечего мешать создавать экземпляр на основе экземпляра, упаковывать AMI и использовать его для вашего кластера Hadoop. Использование EBS также может не представлять много дополнительных затрат, в зависимости от вашей рабочей нагрузки и частоты. Кроме того, при использовании EMR добавляется дополнительная стоимость экземпляра EC2.

Я использую EMR уже два года, и я бы настоятельно рекомендовал услугу, так как вам не нужно инвестировать время в управление и обновление вашего дистрибутива. Если ваша рабочая нагрузка совместима с EMR (получение данных из DynamoDB или S3), я бы выбрал EMR, а не EC2/Hadoop.

4

EMR многое для вас делает, что вы не найдете на стандартном Hadoop на EC2. К числу особенно важных относятся:

  • Копирование журналов Hadoop с ваших компьютеров на S3. Это очень полезно для отладки ошибок после закрытия кластера.
  • Выполнение задания потоков множественной MapReduce, Свиньи, или Hive рабочих мест
  • Настройка осмысленные конфигурации по умолчанию в зависимости от размера оборудования Вы выбираете
  • Доступ к пятну экземпляров для более дешевой вычислительных
  • Возможность изменения размера кластеров динамически

Вы также обнаружите, что файловая система EMR S3 работает быстрее и надежнее, чем стандартная, поставляемая с Apache Hadoop. Он поддерживает загрузку Multipart, и потоки сначала записываются непосредственно на S3, а не на буферизацию на диск. Для получения дополнительной информации об этом см. Tip #5

Кроме того, если вы решите использовать EC2 напрямую, я бы рекомендовал вместо экземпляра EBS использовать хранилище экземпляров вместо EBS. На самом деле нет причин оплачивать дополнительную стоимость EBS для Hadoop; вы заметите, что все кластеры EMR работают также на узлах хранения экземпляров.

+0

спасибо - относительно использования хранилища экземпляра: мои задания будут редко выполняться, поэтому я хочу закрыть экземпляры. Потоковая передача данных и результатов назад и вперед звучит медленно по сравнению с хранением всего в EBS? Кроме того, AWS предлагает либо небольшой экземпляр-хранилище (~ 8Gig), либо супер большой (48 ТБ), не такой уж большой выбор, у меня есть несколько ТБ данных. Другой вопрос: мне нужно учитывать имя Node/2ndary NN , Job tracker machines, или EMR обрабатывает это для меня? –

+0

EMR будет обрабатывать настройки NN и Job Tracker для вас. Вероятно, вам легче будет передавать ваши данные в/из EC2, чем пытаться получить их на узлах EBS каким-либо другим способом. Кроме того, как только данные находятся в Hadoop, он по умолчанию реплицируется по 3X, поэтому вы должны иметь возможность закрывать узлы по 1 или 2 за один раз без проблем, независимо от хранилища резервных копий. – ddaniels888

Смежные вопросы