2012-04-11 4 views
9

Я выполнил задание в Hive. В настоящее время он отлично работает на моем кластере с одним узлом. Теперь я планирую развернуть его на AWS.Amazon EC2 vs. Amazon EMR

Я ничего не знаю о AWS. Если я планирую развернуть его, то какой должен выбрать Amazon EC2 или Amazon EMR.

Я хочу улучшить производительность своей задачи. Какой из них лучше и надежнее для меня? Как подойти к ним. Я слышал, что мы также можем зарегистрировать нашу настройку VM, как на AWS. Является ли это возможным?

Pls предложит мне как можно скорее.

Большое спасибо.

+0

Разве это не вопрос SysAdmin, а вопрос программирования? –

+0

Угадывая из «КАК МОЖНО СКОРЕЕ» в конце вашего вопроса, возможно, вам стоит попробовать отправить ответ на вопрос в группу поддержки платформы вашей компании;) –

ответ

14

EMR - это коллекция экземпляров EC2 с Hadoop (и опционально Hive and/or Pig), установленная и настроенная на них. Если вы используете свой кластер для работы Hadoop/Hive/Pig, EMR - это путь. Экземпляр EMR стоит немного больше, чем экземпляр EC2. Быстрая проверка цен на Amazon сегодня показывает, что небольшие экземпляры EC2 стоят $ 0,08/час, в то время как небольшой экземпляр EMR стоит 0,015 долларов за час. На мой взгляд, стоит заплатить дополнительные деньги, чтобы избавить себя от необходимости устанавливать и настраивать Hadoop (вместе с Hive and Pig), создавать и поддерживать AMI и использовать его. Более того, версия Hadoop и Hive от EMR имеет некоторые исправления, которые недоступны (по крайней мере, пока) на Apache Hive. Если вы используете EC2, вы, вероятно, будет с помощью Apache Hadoop и Hive (или, может быть, распределение Cloudera) и не будет иметь доступа к этим пластырей (например, встроенной поддержкой S3 или команд, как ALTER TABLE my_table RECOVER PARTITIONS

Ссылки:

+0

Цены на EMR и EC2 https://aws.amazon.com/emr/pricing/ – Saad

5

Я бы предположил, что вы НЕ пытаетесь развернуть свой собственный кластер Hadoop, если у вас нет 2-3 месяцев, чтобы сэкономить, и у вас есть удобный эксперт.

Elastic MapReduce позволит вам начать работу очень быстро, предоставив предварительно сконфигурированную среду hadoop. Увидев, что у вас только одна работа, все должно быть хорошо.

+0

Thats Fine. В моем примере использования я хочу использовать SQOOP для импорта данных из MS SQL Server. Я создал для него работу, используя Hive JDBC для ее обработки. Но у меня есть огромные данные в MSSQL-SERVER (около около в GB). Если мне нужно выполнять работу ежедневно/еженедельно, то эффективно ли она импортировать из SQL-SERVER ежедневно/еженедельно. Если я думаю, что выйдет из этой проблемы и сохранил эти данные n S3, то как я могу установить связь между HDFS и S3. (Поскольку данные таблицы Hive хранятся в HDFS в каталоге/user/hive/warehouse). –

1

В целом, исторически ЭЙ был довольно далеко позади последними версий компонентов Hadoop, и некоторые из них были полностью отсутствуют. Вот основные Ризы для использования другого дистрибутива. Например, если вы хотите HBase, это не было в EMR, но это не так. Сегодня Spark отсутствует в ЭМИ. ЭМИ обычно отстает.

При этом, если вы не используете новейшие и самые лучшие функции, перейдите к EMR.

Смежные вопросы