Запрос большого количества данных, обработанных Hive

Скажем, у меня около 10-20 ГБ данных в HDFS в виде таблицы Hive. Это было получено после нескольких работ по сокращению Map-Уменьшения и JOIN через два отдельных набора данных. Мне нужно сделать это Queryable для пользователя. Какие у меня варианты?Запрос большого количества данных, обработанных Hive

Используйте Sqoop для передачи данных с HDFS на RDS, например Postgresql. Но я хочу избежать траты времени на передачу данных. Я просто тестировал HDFS-> RDS в том же регионе AWS, используя Sqoop, а 800 МБ данных занимает 4-8 минут. Таким образом, вы можете себе представить, что ~ 60 гб данных будет довольно неуправляемым. Это было бы моим последним средством.
Query Hive непосредственно с моего веб-сервера в соответствии с запросом пользователя. У меня никогда не было головы улья, используемого таким образом, поэтому я скептически отношусь к этому. Это поразило меня, потому что я только что узнал, что вы можете запросить таблицы улей удаленно после некоторой переадресации портов в кластере EMR. Но, будучи новым для больших (иш) данных, я не совсем уверен в связанных с этим рисках. Это обычное дело?
Другое решение. Как люди обычно делают такие вещи? Кажется, это довольно обычная задача.

Просто для полноты, мои данные выглядит следующим образом:

id  time    cat1 cat2 cat3 metrics[200] 
A123 1234212133  12  ABC  24  4,55,231,34,556,123....(~200) 
. 
. 
.

(время эпохи)

И мои запросы выглядеть следующим образом:

select cat1, corr(metrics[2],metrics[3]),corr(metrics[2],metrics[4]),corr(metrics[2],metrics[5]),corr(metrics[2],metrics[6]) from tablename group by cat1;

I нужна корреляционная функция, поэтому у меня есть чо sen postgresql над MySQL.

источник

2014-10-28 user1265125

Вы корреляционная функция в Hive:

корр (col1, col2)

Возвращает коэффициент Пирсона корреляции пары из числовых столбцов в группе.

источник

2014-10-28 15:49:43 www

Да, я знаю об этом, но я в основном хотел знать, является ли использование Hive подобным, это хорошая практика или нет ... – user1265125

Вы можете просто подключиться к порту hiveserver через odbc и выполнить запросы. Вот пример: http://www.cloudera.com/content/cloudera/en/downloads/connectors/hive/odbc/hive-odbc-v2-5-10.html

источник

2014-10-28 16:55:08 dimamah

Я понимаю, что это возможно, но это хорошая практика? Я никогда не слышал о том, что Уль был таким. – user1265125

Несомненно. Я думаю, что это основной способ использования улья. Улей должен быть доступен пользователям и машинам для выполнения ETL и аналитики и многое другое с удаленных серверов. Обычно пользователи обращаются к нему либо с помощью Hue, либо с помощью любого программного обеспечения для запросов, такого как DBVisualizer, который поддерживает ODBC и JDBC. Кроме того, используя JDBC, вы можете получить к нему доступ с Java и создать программное обеспечение, которое будет выполнять задания ETL по улью. Все вышесказанное очень распространено. – dimamah

Посмотрите на это: https://cwiki.apache.org/confluence/display/Hive/Tutorial#Tutorial-WhatHiveIsNOT. Говорит, что «Hive не предназначен для обработки онлайн-транзакций и не предлагает запросы в реальном времени». Мысли? – user1265125

Hive Опыт пользователя (Оттенок) имеет редактор запросов пчелиный воск, разработанный специально с целью разоблачения Улей для конечных пользователей, которые знакомы с SQL. Таким образом, они могут потенциально запускать специальные запросы против данных, находящихся в Улье, без необходимости перемещать их в другом месте. Вы можете увидеть пример редактора запросов на восклицательный знак здесь: http://demo.gethue.com/beeswax/#query

Будет ли это работать на вас?

источник

2014-10-29 01:26:17 nochum

Что я могу понять из вопроса, изложенного выше, у вас есть некоторые данные (20 ГБ), которые вы сохранили в hdfs и используя куст. Теперь вы хотите получить доступ к этим данным для выполнения некоторых функций статистики, таких как корреляция и другие.

У вас есть функции в улье, которые выполняют корреляцию.
В противном случае вы можете напрямую подключить R к улью с помощью RHive или даже преуспеть в улей с использованием источника данных.
Другое решение - установка оттенка, который поставляется с редакторами улей, где вы можете напрямую запросить улей.

источник

2016-09-07 06:56:12

Запрос большого количества данных, обработанных Hive

ответ

Смежные вопросы