2009-04-02 3 views
5

Кто-нибудь еще играл с MapReduce на AWS? Есть предположения? Как осуществляется реализация?MapReduce on AWS

+3

Как получилось, что я задал такие вопросы, они умирают через 4 секунды с «не реальным вопросом» buls ** it – Letterman

ответ

15

С этим легко начать.

Вот FAQ: http://aws.amazon.com/elasticmapreduce/faqs/

А вот руководство по началу работы: http://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/

Если у вас есть аккаунт EC2 уже, вы можете включить MapReduce и иметь образец приложения и работает менее чем за 10 минут используя консоль управления AWS.

Я сделал предварительно упакованное примерное приложение Word Count, которое возвращает количество каждого слова, содержащее около 20 МБ текста. Вы можете предоставить до 20 экземпляров для запуска одновременно, хотя я использовал только 2 экземпляра, а задание было выполнено примерно через 3 минуты.

Задача возвращает список слов в 300 Кбайт и как часто каждое слово появляется в образце корпуса.

Мне очень нравится, что задания MapReduce могут быть записаны в моем выборе Perl, Python, Ruby, PHP, C++, R или Java. Процесс был безболезненным и понятным, и интерфейс дает хорошие отзывы о состоянии ваших экземпляров и потоке работы.

Помните, что, поскольку AWS взимает плату за полный час при создании экземпляра, а так как экземпляры MapReduce автоматически завершаются в конце потока заданий, стоимость нескольких быстро выполняющихся потоков работ может быстро складываться ,

Например, если я создаю поток задания, который использует 20 экземпляров и возвращает результаты за 15 минут, а затем повторно запускает поток задания 3 раза, я буду платить в течение 80 часов машинного времени, даже если я только 20 экземпляров работали в течение 1 часа.

+0

Наш опыт также, плюс медленное время запуска. Это стоит того, если у вас есть рабочие места, которые могут работать в течение нескольких часов. –

+0

Кластер не обязательно автоматически завершается, вы можете оставить его включенным. –

2

Это очень удобно, потому что вам не нужно администрировать свой собственный кластер. Вы просто платите за использование, поэтому я думаю, что это хорошая идея, если у вас есть работа, которую нужно запускать время от времени. Мы работаем с Amazon MapReduce только раз в месяц, поэтому для нашего использования это того стоит.

Однако, насколько я могу судить, недостатком Amazon Map Reduce является то, что вы не можете определить, какая операционная система работает, или даже ее версию. Это вызвало у меня проблемы с запуском C++-кода, скомпилированного с g ++ 4.44, некоторые из изображений ОС не поддерживают библиотеку cUrl и т. Д.

Если вам не нужны специальные библиотеки для вашего прецедента, я бы сказал, ,

1

Хороший ответ по МБ.

Чтобы быть ясным: вы можете запускать кластеры Hadoop двумя способами: 1) Запустите его на экземплярах Amazon EC2. Это означает, что вам нужно установить его, настроить, завершить его и т. Д. 2) Запустите его с помощью Elastic MapReduce или EMR: это автоматический способ запуска кластера Hadoop на веб-сервисах Amazon. Вы платите немного больше сверх основных затрат для EC2, но вам не нужно ничего управлять: просто загружайте свои данные, затем ваш алгоритм, а затем хруст. EMR автоматически отключит экземпляры после завершения ваших заданий.

Бест,

Simone

3

У вас также есть возможность запустить MapReduce (Hadoop) на AWS с StarCluster.Этот инструмент настраивает кластер для вас и имеет то преимущество, что вам не нужно оплачивать дополнительную цену Amazon Elastic MapReduce (если вы хотите снизить свои затраты), и вы можете создать свое собственное изображение (AMI) с помощью ваших инструментов (это может быть хорошим, если установка инструментов не может быть выполнена с помощью сценария начальной загрузки).

1

EMR - это лучший способ использовать доступные ресурсы с очень небольшой добавленной стоимостью по сравнению с EC2, однако вы будете экономить время и легко. Большая часть реализации MR на Cloud использует эту модель, то есть Apache Hadoop на Windows Azure, Mortar Data и т. Д. Я работал над Amazon EMR и Apache Hadoop на Windows Azure и нашел невероятным использование.

0

Я работаю с AWS ЭМИ. Это довольно аккуратно. Я имею в виду, как только вы запускаете свой кластер и заходите в свой главный узел. Вы можете поиграть с структурой каталогов hadoop. И делайте довольно классные вещи. Если у вас есть аккаунт edu, не забудьте подать заявку на грант на исследования. Они дают 100% бесплатных кредитов для использования своих AWS.

0

AWS EMR - хороший выбор, если вы используете хранилище S3 для своих данных. Он обеспечивает интеграцию с коробкой S3 для загрузки файлов и отправки обработанных файлов. В тех случаях, когда вам нужно выполнить задание по требованию, вы сохраняетесь от стоимости работы всего кластера все время, это действительно помогает вам сэкономить часы экземпляра. Используя вышеизложенное преимущество, можно использовать AWS лямбда для создания событийных кластеров.

Смежные вопросы