2015-01-13 4 views
0

Я использую bigdata в своем проекте, чтобы сократить время работы, которое выполняет мой ETL.Является ли Cloudera Impala основой для использования памяти?

Я хотел бы понять, что облачная память CloudEra Impala Framework интенсивна, так как она возвращает результаты очень быстро и намного быстрее, чем улей и свиньи.

Я имею набор данных, скажем, 20-30 миллионов записей, и я выполняю операции импали запрос, как группе и присоединяется

так ли вы предлагаете использовать импали, как это быстрее, или использовать улей. Все мое намерение состоит в том, чтобы грызть мое ETL время операции, которая использует Oracle прямо сейчас ..

Пожалуйста советы относительно использования памяти и это ... рекомендуется ставить

Кроме того, если какая-либо ссылка, где мы познаем как Impala работает и как она использует свою память, будет очень полезной.

Спасибо. !!!!!

ответ

0

Импала определенно насыщена памятью и намного быстрее, чем Улей и Свинья. Для 30M записей Hive будет работать быстрее, чем Oracle, который вы используете. Если у вас достаточно ресурсов памяти, оборудования, и если у вас нет других процессов, связанных с питанием, Impala - лучший инструмент для использования.

http://www.cloudera.com/content/cloudera/en/documentation/cloudera-impala/latest/topics/impala_cluster_sizing.html

Это doumentation объясняет о требованиях к памяти для Impala

Смежные вопросы