Я использую Azure с подпиской Pay-as-you-go. У меня был опыт создания Spark-кластера с помощью HDInsight для меня и получил больше, чем ожидалось. После этого я искал, как использовать его экономически, и обнаружил, что люди обычно удаляют свои кластеры, чтобы сэкономить. Интересно, есть ли какие-либо другие способы использования отдельными пользователями Spark-кластера с небольшими затратами. Существуют ли другие подписки, которые я могу использовать для экономии средств? Заранее спасибо.Как использовать Azure HDInsight, заряжаемый менее
ответ
Создание и удаление кластеров можно автоматизировать с помощью шаблонов PowerShell или ARM. Вы правы, это типичная картина.
Вы также смотрите на Azure Data Lake Analytics, который предназначен для больших данных, но является моделью с оплатой за запрос.
Я вижу. Я должен попытаться автоматизировать процесс создания и удаления кластеров через PowerShell и использовать меньшие размеры VM только с несколькими ядрами. Это разумно уменьшит заряд. Я также нашел статью о том, как использовать Azure Automation для этого (http://www.datamic.net/blog/automate-provisioning-hdinsight-clusters-with-powershell-and-azure-automation). Thank.s –
Также рассмотрите действия скрипта, а также автоматизируйте определенные действия во время создания. Это позволит сэкономить время на воссоздание любой настройки. –
Также: Следите за своими наборами данных, особенно большими, которые вам не нужны. Убедитесь, что у вас есть эффективный формат столбцов для обработки (Parquet, ORC), а затем сжимайте его с помощью сплиттируемого сжатия (bzip2, LZO, snappy).
Возможно, вы даже обнаружите, что иногда его дешевле пересчитывать данные, чем сохранять его.
Это очень просто, чтобы случайно сохранить намного больше данных, чем вам нужно на WASB, который запускает счета, даже если ваш кластер не работает.
И наконец: убедитесь, что ваши кластеры снесены. Общей практикой здесь, по крайней мере, для AWS-кластеров является использование Дженкинса для запуска/остановки кластеров по расписанию. Похоже, автоматизация Azure хорошо работает для Azure.
- 1. Pyparsing in Azure HDInsight
- 2. Недопустимый параметр Azure HDInsight
- 3. Azure HDInsight установки Сбой
- 4. Использование Azure HDInsight и Hive
- 5. Azure HDInsight MapReduce AdditionalInputPath игнорируется
- 6. Как использовать Zookeeper с кластером Azure HDInsight Linux?
- 7. Визуализировать HBase внутри Hdinsight (Azure)
- 8. Microsoft Azure HDInsight - «Недействительный JAR»
- 9. Локальная эмуляция для Azure + HDInsight
- 10. Хранение таблиц HDInsight и Azure
- 11. HDInsight масштабируемость при использовании Azure Storage
- 12. HDInsight: HBase или Azure Table Storage?
- 13. Открытие порта на кластере HDInsight на Azure
- 14. HDInsight против виртуализированного кластера Hadoop на Azure
- 15. SparkR под RStudio Server на Azure HDInsight
- 16. HDInsight SparkHistory на Azure показывает нет приложений
- 17. Миграция от Azure HDInsight до Amazon EMR?
- 18. Отправить задание на Azure HDInsight удаленно
- 19. Microsoft Azure HDinsight Ambari Sqoop и Postgres
- 20. HDInsight - использовать более 1 памяти?
- 21. Как использовать «Set-AzureStorageFileContent» для загрузки файла в HDInsight?
- 22. Как запустить Spark 2.0 из HDInsight с использованием Azure Automation
- 23. Как настроить и перезагрузить кластер HDInsight на Azure?
- 24. HDInsight Intellij Plugin Authentication
- 25. Как загрузить данные в HDInsight?
- 26. HDInsight - хранение лазурного пятна
- 27. HDInsight Invoke-Hive performance
- 28. Как распределяется распределение данных в Azure HDInsight при его обработке
- 29. Можем ли мы использовать службу HDInsight для ATS?
- 30. Чтение данных из таблицы хранения Azure в HDInsight
Какой размер VM вы выбрали? В зависимости от вашей рабочей нагрузки также могут работать более экономичные размеры. – GregGalloway
Я использовал D12 (4 ядра) и D4 (8 ядер). Я нашел, что D4 довольно дорогая с этой страницы (https://azure.microsoft.com/en-au/pricing/details/hdinsight/). –