Кто-нибудь еще играл с MapReduce на AWS? Есть предположения? Как осуществляется реализация?MapReduce on AWS
ответ
С этим легко начать.
Вот FAQ: http://aws.amazon.com/elasticmapreduce/faqs/
А вот руководство по началу работы: http://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/
Если у вас есть аккаунт EC2 уже, вы можете включить MapReduce и иметь образец приложения и работает менее чем за 10 минут используя консоль управления AWS.
Я сделал предварительно упакованное примерное приложение Word Count, которое возвращает количество каждого слова, содержащее около 20 МБ текста. Вы можете предоставить до 20 экземпляров для запуска одновременно, хотя я использовал только 2 экземпляра, а задание было выполнено примерно через 3 минуты.
Задача возвращает список слов в 300 Кбайт и как часто каждое слово появляется в образце корпуса.
Мне очень нравится, что задания MapReduce могут быть записаны в моем выборе Perl, Python, Ruby, PHP, C++, R или Java. Процесс был безболезненным и понятным, и интерфейс дает хорошие отзывы о состоянии ваших экземпляров и потоке работы.
Помните, что, поскольку AWS взимает плату за полный час при создании экземпляра, а так как экземпляры MapReduce автоматически завершаются в конце потока заданий, стоимость нескольких быстро выполняющихся потоков работ может быстро складываться ,
Например, если я создаю поток задания, который использует 20 экземпляров и возвращает результаты за 15 минут, а затем повторно запускает поток задания 3 раза, я буду платить в течение 80 часов машинного времени, даже если я только 20 экземпляров работали в течение 1 часа.
Наш опыт также, плюс медленное время запуска. Это стоит того, если у вас есть рабочие места, которые могут работать в течение нескольких часов. –
Кластер не обязательно автоматически завершается, вы можете оставить его включенным. –
Это очень удобно, потому что вам не нужно администрировать свой собственный кластер. Вы просто платите за использование, поэтому я думаю, что это хорошая идея, если у вас есть работа, которую нужно запускать время от времени. Мы работаем с Amazon MapReduce только раз в месяц, поэтому для нашего использования это того стоит.
Однако, насколько я могу судить, недостатком Amazon Map Reduce является то, что вы не можете определить, какая операционная система работает, или даже ее версию. Это вызвало у меня проблемы с запуском C++-кода, скомпилированного с g ++ 4.44, некоторые из изображений ОС не поддерживают библиотеку cUrl и т. Д.
Если вам не нужны специальные библиотеки для вашего прецедента, я бы сказал, ,
Хороший ответ по МБ.
Чтобы быть ясным: вы можете запускать кластеры Hadoop двумя способами: 1) Запустите его на экземплярах Amazon EC2. Это означает, что вам нужно установить его, настроить, завершить его и т. Д. 2) Запустите его с помощью Elastic MapReduce или EMR: это автоматический способ запуска кластера Hadoop на веб-сервисах Amazon. Вы платите немного больше сверх основных затрат для EC2, но вам не нужно ничего управлять: просто загружайте свои данные, затем ваш алгоритм, а затем хруст. EMR автоматически отключит экземпляры после завершения ваших заданий.
Бест,
Simone
У вас также есть возможность запустить MapReduce (Hadoop) на AWS с StarCluster.Этот инструмент настраивает кластер для вас и имеет то преимущество, что вам не нужно оплачивать дополнительную цену Amazon Elastic MapReduce (если вы хотите снизить свои затраты), и вы можете создать свое собственное изображение (AMI) с помощью ваших инструментов (это может быть хорошим, если установка инструментов не может быть выполнена с помощью сценария начальной загрузки).
EMR - это лучший способ использовать доступные ресурсы с очень небольшой добавленной стоимостью по сравнению с EC2, однако вы будете экономить время и легко. Большая часть реализации MR на Cloud использует эту модель, то есть Apache Hadoop на Windows Azure, Mortar Data и т. Д. Я работал над Amazon EMR и Apache Hadoop на Windows Azure и нашел невероятным использование.
Кроме того, в зависимости от типа/продолжительности работы вы планируете работать, вы можете использовать AWS spot instances with EMR to get better pricing.
Я работаю с AWS ЭМИ. Это довольно аккуратно. Я имею в виду, как только вы запускаете свой кластер и заходите в свой главный узел. Вы можете поиграть с структурой каталогов hadoop. И делайте довольно классные вещи. Если у вас есть аккаунт edu, не забудьте подать заявку на грант на исследования. Они дают 100% бесплатных кредитов для использования своих AWS.
AWS EMR - хороший выбор, если вы используете хранилище S3 для своих данных. Он обеспечивает интеграцию с коробкой S3 для загрузки файлов и отправки обработанных файлов. В тех случаях, когда вам нужно выполнить задание по требованию, вы сохраняетесь от стоимости работы всего кластера все время, это действительно помогает вам сэкономить часы экземпляра. Используя вышеизложенное преимущество, можно использовать AWS лямбда для создания событийных кластеров.
- 1. Изменение файла log4j.properties на AWS Elastic MapReduce
- 2. Почему в работе AWS MapReduce произошел сбой работы Elastic MapReduce?
- 3. Mapreduce on large gz file
- 4. Какова разница между AWS Elastic MapReduce и AWS Redshift
- 5. AWS MapReduce улого SSH в DataNode
- 6. Collectd on AWS
- 7. Hbase on AWS EC2
- 8. Favicon on AWS S3
- 9. MongoDB limit mapReduce on index key
- 10. Python MapReduce on Sun Grid Engine
- 11. Top N Record MapReduce on Python
- 12. Mahout on Elastic MapReduce: Java Heap Space
- 13. neo4j cluster on Amazon AWS
- 14. Hadoop или Hadoop Streaming для MapReduce на AWS
- 15. Использование микро-экземпляра для Elastic MapReduce (EMR) на AWS
- 16. Импорт пользовательских функций в MapReduce код на AWS EMR
- 17. Как подготовить и получить данные после ухода за AWS MapReduce
- 18. Медленная работа с кустом в AWS Elastic MapReduce
- 19. как сделать AWS упругую MapReduce улей команды, выполняемые параллельно
- 20. Post function on NodeJs Deployed on aws returns Ошибка: 502
- 21. Amazon MapReduce no reducer job
- 22. Родной mapreduce VS hbase mapreduce
- 23. ruby on rails carrierwave-video ffmpeg AWS
- 24. /etc/init.d/celeryd start fail on AWS
- 25. AWS NameError on Rails 3.2.11 на Heroku
- 26. Хранение чата Log on AWS DynamoDB?
- 27. Spring Boot on AWS не начат
- 28. AWS ruby on rails пример кода
- 29. Git on AWS CodeCommit Bare Repository
- 30. Подключение AWS с использованием Ruby on Rails
Как получилось, что я задал такие вопросы, они умирают через 4 секунды с «не реальным вопросом» buls ** it – Letterman