2011-02-11 3 views
2

При запуске Hadoop в EC2, я, кажется, есть два варианта:Рекомендации для Hadoop на EC2?

  • A: управлять кластером сам, используя EC2 конкретные сценарии оболочки, которые приходят с Hadoop.
  • B: Используйте Elastic MapReduce и платите немного больше за удобство.

Я склоняюсь к B, но я был бы признателен за советы от людей с большим опытом. Вот мои вопросы:

  1. Есть ли какие-либо задачи, которые могут быть выполнены с помощью одного из этих методов, но не другого?
  2. Есть ли другие варианты, кроме этих двух, которые я пропускаю?
  3. Если я выберу B, как легко было бы вернуться к A? То есть, какова опасность блокировки поставщика?

ответ

1

Мне сказали люди, близкие к Amazon Elastic MapReduce (ЭМИ) команды разработчиков, что есть по крайней мере два других преимущества для использования ЭМИ: а) Amazon активно применяя исправления ошибок и повышения производительности в код Hadoop база, используемая для EMR, и б) Amazon использует высокопроизводительную сеть между серверами EMR и серверами S3, которые могут быть недоступны между серверами EC2 и серверами S3.

ОБНОВЛЕНИЕ: см. Комментарии @ mat, которые опровергают слухи о преимуществах использования ЭМИ.

+0

Они способствуют исправления ошибок и улучшений в проекте Hadoop? Если да, то это не имеет никакого отношения к моему вопросу. Если это не так, то возникает другая проблема, о которой я беспокоюсь: блокировка поставщика. –

+1

a) до сих пор большинство исправлений, которые мы сделали, особенно те, которые относятся к ВИЧ, были снова возвращены в багажник. б) это совершенно неверно; случаи, когда положения EMR от имени наших клиентов ничем не отличаются (с точки зрения ресурсов) как экземпляры EC2, которые вы могли бы начать самостоятельно. –

3

Третий вариант: Вы можете использовать apache whirr настроить кластер Hadoop на EC2 (Rackspace также поддерживается)

0

Отказ от ответственности: Я основатель Axemblr.com

Там также коммерческие альтернативы вы можете использовать. Axemblr Tool for Cloudera CDH3 - это инструмент, который мы создаем, который может развернуть кластер всего за несколько минут со всем необходимым (включая Cloudera Hue, Mahout & Pig).

Мы также строим альтернативу EMR, которая полностью совместима с перспективой API, ориентированной на частные облака.

Если вы задаетесь вопросом, почему это имеет смысл запускать CDH на EC2, а не ЭМИ посмотреть:

http://www.quora.com/What-are-the-advantages-disadvantages-running-Clouderas-distribution-for-Hadoop-on-EC2-instances-rather-than-using-Amazons-Elastic-Map-Reduce-Service

Смежные вопросы