2017-02-16 11 views
2

Я бегу улей 2.1.1, hadoop 2.7.3 на Ubuntu 16.04.Улей 2.1.1 на искры - какую версию искры я должен использовать

Согласно Hive on Spark: Getting Started, это говорит

Install/build a compatible version. Hive root pom.xml's defines what version of Spark it was built/tested with.

Я проверил pom.xml, это показывает, что искра версия 1.6.0.

<spark.version>1.6.0</spark.version> 

Hive on Spark: Getting Started Но также говорит, что

Prior to Spark 2.0.0: ./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.4,parquet-provided"

Since Spark 2.0.0: ./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided"

Так что теперь я смущен, потому что я бегу Hadoop 2.7.3. Должен ли я переопределить мой хаос до 2,4?

Какую версию Spark следует использовать? 1.6.0 или 2.0.0?

Спасибо!

ответ

0

В настоящее время я использую искру 2.0.2 с hadoop 2.7.3 и hive 2.1, и он работает нормально. И я думаю, что улей будет поддерживать обе версии 1.6.1 и 2.x, но я предлагаю вам пойти с искру 2.x, так как это последняя версия.

Некоторые мотивационной ссылка почему использовать свечи 2.x https://docs.cloud.databricks.com/docs/latest/sample_applications/04%20Apache%20Spark%202.0%20Examples/03%20Performance%20Apache%20(Spark%202.0%20vs%201.6).html

Apache Spark vs Apache Spark 2

+0

Я пробовал Spark 1.6.0, и он работает. Я проведу Spark 2.0.2, как вы предложили. –

+0

Сообщите мне, если у вас возникнут какие-либо проблемы. –

+2

@siddharthajain, не могли бы вы поделиться своими подробными инструкциями по настройке «Улей» на Spark? Я пытаюсь запустить Hive (2.1.1) на Spark (2.1.0), но не смог. Я запускаю Spark в автономном режиме и запускаю улей с командой: hive --auxpath $ HOME/Tools/spark-2.1.0-bin-hadoop2.7/jars /, набор улей с командами: set hive.execution.engine = искра; set spark.master = spark: //10.0.0.26: 7077; улей> набор spark.eventLog.enabled = true; улей> набор spark.eventLog.dir =/tmp/hive-shizhz/spark /; hive> set spark.executor.memory = 512m; улей> набор spark.serializer = org.apache.spark.serializer.KryoSerializer; – shizhz

0

Текущая версия Спарк 2.X не совместим с улья 2.1 и Hadoop 2.7, есть главная ошибка:

JavaSparkListener не доступен и Hive аварии на исполнении

https://issues.apache.org/jira/browse/SPARK-17563

Вы можете попробовать построить улей 2.1 с Hadoop 2.7 и 1.6 Спарк с:

./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided" 

Если вы посмотрите на команду после того, как 2.0 разница в том, что ./make-distribution находится внутри папки/разработчика ,

Если он не работает для Hadoop 2.7.x, я могу подтвердить, что я был в состоянии успешно построил его с Hadoop 2.6, с помощью:

./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.6,parquet-provided" 

и для Скале 2.10.5

+0

По следующей ссылке это было исправлено в последнее время в версии 2.2.0 https://issues.apache.org/jira/browse/HIVE-14029 –

+0

Проблема решена, но не исправлена ​​https: // issues. apache.org/jira/browse/SPARK-17563. – chuseuiti

Смежные вопросы