Вообще-то, это зависит от вашего прецедента, потребностей и т. Д. Но я могу предложить минимальную конфигурацию, учитывая информацию, которую вы разделили.
Вы, кажется, пытаетесь обучить факторию ALS
или SVD
на матрицах от 2 до 4 ГБ данных. Так что на самом деле это не слишком много данных.
Для настройки и настройки небольшого распределенного кластера вам понадобится как минимум 1 мастер и 2 узла. Мастер не будет делать каких-либо вычислений, поэтому ему не понадобятся большие ресурсы, но, конечно, я буду заниматься планированием задач и т. Д.
Вы можете добавить ведомые устройства (экземпляры) в соответствии с вашими потребностями.
1 x master : m3.xlarge - vCPU : 4 , RAM : 15 GB and 2 x 40 GB SSDs
2 x slaves : c3.4xlarge - vCPU : 16, RAM : 30 GB and 2 x 160GB SSDs.
С3 и С4 вычисляют оптимизированы экземпляров, показывающих высокие производительность и процессоры с низкой производительностью цены/вычислительной в EC2 по сравнению с R3, хотя это рекомендуется случаи использования распределены кэша памяти и в памяти аналитик. Но C4 сделает работу за вас по более низкой цене.
Оптимизация Производительность:
Amazon EMR расходы на почасовых приращениях. Это означает, что после запуска кластера вы платите весь час. Это важно помнить, потому что, если вы платите за полный час кластера Amazon EMR, улучшение времени обработки данных в считанные минуты может не стоить вашего времени и усилий.
Не забывайте, что добавление большего количества узлов для повышения производительности дешевле, чем тратить время на оптимизацию вашего кластера.
Код: Amazon EMR Best Practices - Parviz Deyhim.
EDIT: Вы могли бы также рассмотреть возможность включения Ganglia контролировать свои ресурсы кластера: процессор, ОЗУ, сетевой ввод/вывод. Это поможет вам также настроить ваш EMR-кластер. Практически, у вас нет какой-либо конфигурации. Просто следуйте documentation, чтобы добавить его в кластер EMR при создании.
это зависит от вашего прецедента, потребностей и т. Д. (0) – eliasah
Только, например , что, если я собираюсь обучить АЛС-факторизацию или СВД по математике с несколькими миллионами записей? – shihpeng
Какой размер ваших данных? в гигабайтах? – eliasah