Рекомендации для Hadoop на EC2?

При запуске Hadoop в EC2, я, кажется, есть два варианта:Рекомендации для Hadoop на EC2?

A: управлять кластером сам, используя EC2 конкретные сценарии оболочки, которые приходят с Hadoop.
B: Используйте Elastic MapReduce и платите немного больше за удобство.

Я склоняюсь к B, но я был бы признателен за советы от людей с большим опытом. Вот мои вопросы:

Есть ли какие-либо задачи, которые могут быть выполнены с помощью одного из этих методов, но не другого?
Есть ли другие варианты, кроме этих двух, которые я пропускаю?
Если я выберу B, как легко было бы вернуться к A? То есть, какова опасность блокировки поставщика?

2011-02-11 Mike Baranczak

Мне сказали люди, близкие к Amazon Elastic MapReduce (ЭМИ) команды разработчиков, что есть по крайней мере два других преимущества для использования ЭМИ: а) Amazon активно применяя исправления ошибок и повышения производительности в код Hadoop база, используемая для EMR, и б) Amazon использует высокопроизводительную сеть между серверами EMR и серверами S3, которые могут быть недоступны между серверами EC2 и серверами S3.

ОБНОВЛЕНИЕ: см. Комментарии @ mat, которые опровергают слухи о преимуществах использования ЭМИ.

источник

2011-02-11 06:50:31

Они способствуют исправления ошибок и улучшений в проекте Hadoop? Если да, то это не имеет никакого отношения к моему вопросу. Если это не так, то возникает другая проблема, о которой я беспокоюсь: блокировка поставщика. –

a) до сих пор большинство исправлений, которые мы сделали, особенно те, которые относятся к ВИЧ, были снова возвращены в багажник. б) это совершенно неверно; случаи, когда положения EMR от имени наших клиентов ничем не отличаются (с точки зрения ресурсов) как экземпляры EC2, которые вы могли бы начать самостоятельно. –

Третий вариант: Вы можете использовать apache whirr настроить кластер Hadoop на EC2 (Rackspace также поддерживается)

источник

2011-02-13 14:30:08

Отказ от ответственности: Я основатель Axemblr.com

Там также коммерческие альтернативы вы можете использовать. Axemblr Tool for Cloudera CDH3 - это инструмент, который мы создаем, который может развернуть кластер всего за несколько минут со всем необходимым (включая Cloudera Hue, Mahout & Pig).

Мы также строим альтернативу EMR, которая полностью совместима с перспективой API, ориентированной на частные облака.

Если вы задаетесь вопросом, почему это имеет смысл запускать CDH на EC2, а не ЭМИ посмотреть:

http://www.quora.com/What-are-the-advantages-disadvantages-running-Clouderas-distribution-for-Hadoop-on-EC2-instances-rather-than-using-Amazons-Elastic-Map-Reduce-Service

источник

2012-06-26 20:00:20

Рекомендации для Hadoop на EC2?

ответ

Смежные вопросы