2017-02-09 2 views
-1

Я использую Azure с подпиской Pay-as-you-go. У меня был опыт создания Spark-кластера с помощью HDInsight для меня и получил больше, чем ожидалось. После этого я искал, как использовать его экономически, и обнаружил, что люди обычно удаляют свои кластеры, чтобы сэкономить. Интересно, есть ли какие-либо другие способы использования отдельными пользователями Spark-кластера с небольшими затратами. Существуют ли другие подписки, которые я могу использовать для экономии средств? Заранее спасибо.Как использовать Azure HDInsight, заряжаемый менее

+1

Какой размер VM вы выбрали? В зависимости от вашей рабочей нагрузки также могут работать более экономичные размеры. – GregGalloway

+0

Я использовал D12 (4 ядра) и D4 (8 ядер). Я нашел, что D4 довольно дорогая с этой страницы (https://azure.microsoft.com/en-au/pricing/details/hdinsight/). –

ответ

1

Создание и удаление кластеров можно автоматизировать с помощью шаблонов PowerShell или ARM. Вы правы, это типичная картина.

Вы также смотрите на Azure Data Lake Analytics, который предназначен для больших данных, но является моделью с оплатой за запрос.

+0

Я вижу. Я должен попытаться автоматизировать процесс создания и удаления кластеров через PowerShell и использовать меньшие размеры VM только с несколькими ядрами. Это разумно уменьшит заряд. Я также нашел статью о том, как использовать Azure Automation для этого (http://www.datamic.net/blog/automate-provisioning-hdinsight-clusters-with-powershell-and-azure-automation). Thank.s –

+0

Также рассмотрите действия скрипта, а также автоматизируйте определенные действия во время создания. Это позволит сэкономить время на воссоздание любой настройки. –

0

Также: Следите за своими наборами данных, особенно большими, которые вам не нужны. Убедитесь, что у вас есть эффективный формат столбцов для обработки (Parquet, ORC), а затем сжимайте его с помощью сплиттируемого сжатия (bzip2, LZO, snappy).

Возможно, вы даже обнаружите, что иногда его дешевле пересчитывать данные, чем сохранять его.

Это очень просто, чтобы случайно сохранить намного больше данных, чем вам нужно на WASB, который запускает счета, даже если ваш кластер не работает.

И наконец: убедитесь, что ваши кластеры снесены. Общей практикой здесь, по крайней мере, для AWS-кластеров является использование Дженкинса для запуска/остановки кластеров по расписанию. Похоже, автоматизация Azure хорошо работает для Azure.

Смежные вопросы