Я делаю операцию присоединения в улье. Но когда редуктор достигает 99%, редуктор застревает.Как обрабатывать искаженные данные с помощью Hive?
Затем я определил, что в таблице есть данные перекоса. Пример. В таблице A имеется 1 миллион данных, а таблица B имеет только 10k. В таблице A столбец соединения имеет 80% значений, то же самое, а остальное - другое. Таким образом, редуктор улья застрял в этом значении.
Вот мой запрос:
INSERT INTO TABLE xyz SELECT m.name, m.country, m.user_type, m.category FROM A m JOIN category n ON (m.name = n.name) where country=2 GROUP BY m.name, m.country, m.user_type, m.category;
Поэтому, пожалуйста, предложить возможные решения. Как я могу обработать операцию объединения данных такого типа.
http://stackoverflow.com/questions/32370033/hive-join-optimization/32373086#32373086 –
Спасибо @KishoreKumarSuthar за ответ. Его что-то круто. –