2016-05-05 4 views
0

Я занимаюсь установкой соединения JDBC Spark для использования с R/python. Я знаю, что доступны pyspark и SparkR, но они кажутся более подходящими для интерактивного анализа, особенно потому, что они резервируют ресурсы кластера для пользователя. Я думаю о чем-то более близком к подключению Spark Tableau ODBC Spark - что-то более легкое (как я понимаю) для поддержки простого случайного доступа. Хотя это кажется возможным, и есть некоторые documentation, неясно (мне), каковы требования драйвера JDBC.JDBC Spark connection

Должен ли я использовать org.apache.hive.jdbc.HiveDriver, как я делаю, чтобы установить соединение с Hive, так как Hive и Spark SQL через привязку кажутся тесно связанными? Должен ли я поменять общую зависимость от хаопа, необходимую для моего подключения Hive (используя порт HiveServer2) для определенной зависимости от искры (при использовании hive.server2.thrift.http.port)?

Кроме того, поскольку большинство функций соединения, похоже, используют Hive, что является ключевым моментом, который заставляет Spark SQL использоваться в качестве механизма запросов вместо Hive?

ответ

0

Как оказалось, URL-адрес, который мне нужно использовать, не соответствует URL-адресу хоста базы данных Hive, указанному в файле ambari. Я натолкнулся на правильный URL-адрес в примере для подключения (к моему кластеру). Учитывая правильный URL-адрес, я смог установить соединение с помощью HiveDriver без проблем.