Запуск Apache Spark на Hadoop 2.0.0-cdh4.4.0

У меня есть кластер с Hadoop 2.0.0-cdh4.4.0, и мне нужно запустить Spark на нем с YARN в качестве менеджера ресурсов. Я получил следующую информацию от http://spark.apache.org/docs/latest/building-spark.html#specifying-the-hadoop-version Запуск Apache Spark на Hadoop 2.0.0-cdh4.4.0

Вы можете включить профиль пряжи и, возможно, установить свойство yarn.version, если оно отличается от hadoop.version. Spark поддерживает только версии YARN версии 2.2.0 и новее.

Я не хочу обновлять весь пакет Hadoop для поддержки версии YARN версии 2.2.0, поскольку мои HDFS имеют массивные данные и обновление, это вызовет слишком долгий перерыв в обслуживании и будет слишком рискованным для меня.

Я думаю, что лучшим выбором для меня может быть использование более высокой версии YARN, чем 2,2, в то время как версия других частей моего Hadoop не изменится. Если это так, какие шаги следует выполнить для получения такого пакета YARN и его развертывания в моем кластере?

Или существует другой подход для запуска Spark на Hadoop 2.0.0-cdh4.4.0 с YARN в качестве менеджера ресурсов?

источник

2016-03-11 G. Han

Хотя вы можете теоретически обновить только свой компонент YARN, мой опыт подсказывает, что вы выполняете большой риск несовместимости библиотеки и других компонентов, если вы это сделаете. Hadoop состоит из множества компонентов, но они, как правило, не настолько развязаны, как должны быть, что является одной из основных причин, по которым CDH, HDP и другие дистрибутивы Hadoop объединяют только определенные версии, которые, как известно, работают вместе, и если у вас есть коммерческая поддержка с ними но изменить версию чего-то, что они обычно не будут поддерживать, потому что вещи, как правило, ломаются, когда вы это делаете.

Кроме того, CDH4 достиг конца обслуживания в прошлом году и больше не разрабатывается Cloudera, поэтому, если вы обнаружите что-то не так, вам будет трудно получить исправления (обычно вам будет предложено перейти на более новая версия). Я также могу сказать из опыта, что если вы хотите использовать более новые версии Spark (например, 1.5 или 1.6), вам также понадобится более новая версия Hadoop (будь то CDH, HDP или другая), так как Spark развивается так быстро и поддерживает YARN позже был прикреплен болтами, поэтому в ранних версиях как Hadoop, так и Spark появилось множество ошибок и проблем.

Извините, я знаю, что это не тот ответ, который вы ищете, но обновление Hadoop до более новой версии - это, пожалуй, единственный путь вперед, если вы действительно хотите, чтобы материал работал, и вы не хотите тратить много времени на отладочную версию несовместимость.

источник

2016-03-11 14:54:52

Запуск Apache Spark на Hadoop 2.0.0-cdh4.4.0

ответ

Смежные вопросы