Самый простой способ начать использовать Spark - запустить автономный искровой кластер на EC2. Это так же просто, как запуск одиночного скрипта - spark-ec2, и он сделает все для вас.
Единственный случай, когда автономный кластер может вас не устраивать - если вы хотите запустить более одного одиночного искрового задания за раз (по крайней мере, это было в случае с Spark 1.1).
Для меня лично автономный Spark-кластер был достаточно хорош в течение долгого времени, когда я запускал специальные рабочие места - анализировал журналы компании на S3 и изучал Spark, а затем уничтожал кластер.
Если вы хотите запустить более одного Искра одновременно, я бы пошел с Мезосом. Альтернативой будет установка CDH из Cloudera, которая относительно проста (они предоставляют установочные скрипты и инструкции по установке), и она доступна бесплатно. CDH предоставит вам мощные инструменты для управления кластером.
Использование CDH для запуска Spark - они используют YARN, и у нас есть тот или иной вопрос время от времени с запуском Spark on YARN.
Основным недостатком для меня - провайдера CDHs является его собственная сборка Spark - поэтому обычно это одна второстепенная версия, что немаловажно для такого быстро развивающегося проекта, как Spark.
Так что я бы попробовал Mesos для запуска Spark, если мне нужно запустить больше одной работы за раз.