Несколько вопросов относительно подхода к работе HDInsight.Запуск рабочих мест HDInsight Howto
1) Как запланировать работу HDInsight? Есть ли готовое решение для этого? Например, если моя система будет постоянно получать большое количество новых входных файлов, собранных, которые нам нужны для выполнения работы по карте/уменьшению работы, каков рекомендуемый способ реализации текущей обработки?
2) С точки зрения цены рекомендуется удалить кластер HDInsight в течение времени, когда работа не выполняется. Насколько я понимаю, нет способа автоматизировать этот процесс, если мы решаем ежедневно выполнять работу? Есть рекомендации?
3) Есть ли способ гарантировать, что одни и те же файлы не обрабатываются более одного раза? Как вы решаете эту проблему?
4) Возможно, я ошибаюсь, но похоже, что для каждого задания hdinsight требуется новая папка для хранения данных для хранения результатов редуктора. Какова наилучшая практика для слияния этих результатов, чтобы отчетность всегда работала во всем наборе данных?