2012-01-16 6 views
2

Мне нужно получить доступ к данным с помощью Hive программно (данные в порядке GB для каждого запроса). Я оценивал драйвер драйвера CLI Vs Hive JDBC.Hive JDBC Vs CLI client

Когда мы используем JDBC, есть дополнительные накладные расходы на бережливый сервер & Я пытаюсь понять, насколько это тяжело. Также может ли это быть узким местом в одной точке, если несколько клиентов подключаются к одному бережному серверу? Или это распространенная практика, что люди настраивают несколько бережливых серверов на Hadoop и выполняют некоторые функции балансировки нагрузки?

Я ищу лучшую производительность, а не более быстрое прототипирование. Спасибо заранее.

ответ

0

С точки зрения производительности, да, бережливый сервер потенциально может быть узким местом и SPF. Я видел, как люди настраивали несколько бережливых серверов, разговаривая с метастаром mysql. Взгляните на это http://blog.milford.io/2011/07/productionizing-the-hive-thrift-server/.Hope, это помогает.

+0

Ваша ссылка не работает! –

1

ссылка Shengjie в не работы- Это может правильно автомагически linkify:

http://blog.milford.io/2011/07/productionizing-the-hive-thrift-server/

+0

Веб-страница по указанной ссылке показывает, что «Эта страница не отображается». Можете ли вы предоставить полезную рабочую ссылку? –

0

Вы можете попытаться использовать пул соединений. У меня была аналогичная проблема, в то время как передача запроса куста через JDBC занимала больше времени, чем улей cli.

Кроме того, в строке подключения отметить несколько параметров, как показано ниже:

JDBC: hive2: // имя_сервера: portno /; hive.execution.engine = Tez; tez.queue.name = альт; hive.exec. параллельное = истина; hive.vectorized.execution.enabled = истина; hive.vectorized.execution.reduce.enabled = истина;

Смежные вопросы