Я знаю, что это старый вопрос, но у меня есть некоторые идеи, которые я бы добавил к следующему поисковику, который находит эту тему в надежде ускорить время загрузки на Amazon EMR.
Некоторое время я задавался вопросом, почему мои кластеры заняли так много времени, как правило, около 15 минут. Это занимает довольно большой кусок времени для работы, которая обычно завершается менее чем за 1 час. Иногда он отталкивает работу за 1 час, но я думаю, что, к счастью, AWS не взимает плату за время полной загрузки.
Последние пару дней я заметил, что время запуска было улучшено. Вы видите, что спотовый рынок стал очень неустойчивым в апреле и в первую неделю мая. Обычно я запускаю свой кластер полностью из экземпляров пятен, поскольку отказ является вариантом, а экономия средств оправдывает технику в моем случае. Однако, после ожидания 14 часов для запуска кластеров, мне пришлось переключиться на OnDemand, у меня было столько терпения, но ночью обычно это превышает. Кластеры OnDemand начинаются примерно через 5 минут. Теперь, переключившись на пятно, когда сумасшествие, похоже, уменьшилось, я возвращаюсь к 15-минутному кластеру.
Итак, если вы используете экземпляры Spot на ваших Core или Master узлах, ожидайте более длительного времени запуска. Я буду экспериментировать с использованием небольшого набора OnDemand в ядре и дополнением большим количеством экземпляров пятен, чтобы узнать, помогает ли он запускать и лучше справляется с волатильностью рынка Spot.
источник - это основной файл 30Mo плюс 5-6 других файлов конфигурации на стороне, поэтому я не думаю, что это проблема. – nraynaud
Какие примеры вы используете? что-то меньшее, чем средние для основных узлов, приведет к плохой производительности. – newToFlume