При запуске Hadoop в EC2, я, кажется, есть два варианта:Рекомендации для Hadoop на EC2?
- A: управлять кластером сам, используя EC2 конкретные сценарии оболочки, которые приходят с Hadoop.
- B: Используйте Elastic MapReduce и платите немного больше за удобство.
Я склоняюсь к B, но я был бы признателен за советы от людей с большим опытом. Вот мои вопросы:
- Есть ли какие-либо задачи, которые могут быть выполнены с помощью одного из этих методов, но не другого?
- Есть ли другие варианты, кроме этих двух, которые я пропускаю?
- Если я выберу B, как легко было бы вернуться к A? То есть, какова опасность блокировки поставщика?
Они способствуют исправления ошибок и улучшений в проекте Hadoop? Если да, то это не имеет никакого отношения к моему вопросу. Если это не так, то возникает другая проблема, о которой я беспокоюсь: блокировка поставщика. –
a) до сих пор большинство исправлений, которые мы сделали, особенно те, которые относятся к ВИЧ, были снова возвращены в багажник. б) это совершенно неверно; случаи, когда положения EMR от имени наших клиентов ничем не отличаются (с точки зрения ресурсов) как экземпляры EC2, которые вы могли бы начать самостоятельно. –