Я новичок в Hadoop Hive, и я разрабатываю решение для отчетности. Проблема в том, что производительность запроса очень медленная (улей 0.10, hbase 0.94, hadoop 1.1.1). Один из вопросов:Hadoop Hive медленные запросы
select a.*, b.country, b.city from p_country_town_hotel b
inner join p_hotel_rev_agg_period a on
(a.key.hotel = b.hotel) where b.hotel = 'AdriaPraha' and a.min_date < '20130701'
order by a.min_date desc
limit 10;
, который занимает довольно много времени (50-е годы). Я знаю, что знаю, соединение находится в поле строки, а не на целочисленном, но наборы данных не большие (около 3300 и 100000 записей). Я пробовал намеки на этот SQL, но это не получилось быстрее. Тот же запрос на MS SQL Server длится 1 с. Также простой счетчик (*) из таблицы длится 7-8 секунд, который шокирует (таблица имеет 3300 записей). Я действительно не знаю, в чем проблема? Любые идеи или я неправильно истолковал Hadoop?
Не используйте импали для анализа больших объемов данных. проверьте [это] (https://gigaom.com/2014/01/13/cloudera-says-impala-is-faster-than-hive-which-isnt-saying-much/). Даже текущая версия (0.15) намного быстрее, чем то, что используется в этом блоге. Проверьте [этот блог] (http://hortonworks.com/blog/benchmarking-apache-hive-13-enterprise-hadoop/). – chanchal1987