0

Я пытаюсь настроить Hadoop постоянно на Amazon EC2. В настоящее время я каждый раз запускаю экземпляры EC2 и настраиваю Hadoop. Есть ли способ избежать этого утомительного шага? Я ищу изображение Hadoop, которое можно загрузить на EC2 и сделать все для меня легким.Где я могу найти AMI для Hadoop на EC2?

Я знаю, что могу использовать EMR для сервисов hadoop. Но я не знаю, как запустить кластер EMR (hadoop), не отправляя поток работы. Я имею в виду, что мне нужен кластер hadoop без каких-либо заданий.

В конечном счете, моя цель - запустить приложения для биоинформатики, такие как Distmap и Seal. Для запуска этих приложений существует множество зависимостей. Поэтому мне нужен бесплатный кластер hadoop для настройки среды и последующего запуска этих приложений. Надеюсь, он ясно, что я пытаюсь сделать.

Спасибо.

ответ

1

Это больше проблема управления сетью и автоматизации. Попробуйте CMT, как шеф-повар и марионетка, чтобы сделать это по вашему желанию.

+0

Интересно. Я думаю, что это хорошее начало для меня. – Ashwin

3

Что вы можете сделать, это один из ниже:

Вариант 1. Начните с EBS при поддержке экземпляра EC2 с вашим любимым дистрибутивом Linux. Идите и установите программное обеспечение Hadoop, которое вам нужно. Создайте столько экземпляров EC2, сколько типов экземпляров, которые вам понадобятся (master/slaves/etc). Вы можете создать свои собственные AMI в консоли AWS (щелкните правой кнопкой мыши по экземпляру EC2 и нажмите «Создать AMI»). Затем вы можете запустить свои собственные экземпляры, сколько вам нужно, на основе этого AMI. Вы также можете создавать AMI из экземпляров с поддержкой экземпляров экземпляра, но это будет означать сброс всего на S3 и создание AMI оттуда. Есть много учебных пособий по этому вопросу, пожалуйста, оставьте комментарий, если вам нужны указания :)

Вариант 2. Начните с AMI на основе Hadoop, повторите описанные выше шаги после выполнения ваших собственных конфигураций/добавления зависимостей к ним. Я пошел вперед и искал Hadoop AMI с консоли AWS, и 48 в EU-West-1 (не уверен, в каком регионе вы работаете).

Вариант 3. Запуск кластера EMR в интерактивном режиме. Существует также возможность сохранить кластер в живых после завершения потоков работ. Если вы также устанавливаете ключи EC2 для экземпляров EMR, вы должны иметь SSH в них и иметь функциональный кластер Hadoop (не уверены в зависимостях, хотя, возможно, вам лучше сворачивать самостоятельно).

Надеюсь, я правильно понял, чего вы пытаетесь достичь, и это немного помогает.

+0

Я попробовал первые два варианта; но я столкнулся с некоторыми ошибками. В конечном итоге я решил использовать Whirr для настройки хауопа. До сих пор никаких проблем как таковых. В любом случае, спасибо за помощь. – Ashwin

Смежные вопросы