2013-07-16 3 views
0

Я использую Hive для запроса данных, которые у меня есть. Проблема в том, что эти данные необходимо очистить, и для меня это слишком сложно, чтобы попытаться обработать его на моем компьютере (следовательно, используя Hadoop и Hive). Есть ли способ сделать это с Улей? Я смотрел на пользовательские функции, но я понимаю, что они работают по строкам, поэтому не может быть оптимальным способом очистки данных.Очистка больших данных с помощью Hive

Благодаря

ответ

2

Вы должны очистить свои данные с помощью программы MapReduce. Наверное, даже не редуктор, который бы увеличил вашу производительность.

Программа MapReduce работает как считыватель буферизованного файла, одновременно считывая одну строку данных. Вы можете выполнить операцию очистки в каждой строке, а затем вставить ее в таблицу улей для запросов.

1
what is your data size? 
what is your cleaning operation? 

Если ваша операция по очистке не может быть выполнена с помощью улья, тогда отправляйтесь только на mapreduce/pig.

Если ваша проблема связана с производительностью улья, попробуйте ее оптимизировать.

Оптимизация зависит от очистки operation.you можно использовать distribution cache, map side joins и т.д ...

+1

Спасибо за ответ мне. Я закончил использование потоковой передачи для очистки данных –

Смежные вопросы