2015-04-08 1 views
2

мне нужно запросить почасовые карты уменьшить результаты партии из ImapalaКак включить рекурсивное чтение в imapla

output directory structure will be 
/data/access/web1/2015/Jan/day1/09/part-r-00000 
/data/access/web1/2015/Jan/day1/09/part-r-00001 
... 
/data/access/web1/2015/Jan/day1/20/part-r-00000 
/data/access/web1/2015/Jan/day1/20/part-r-00001 
... 
/data/access/web1/2015/Jan/day2/01/part-r-00000 
... 
/data/access/web1/2015/Jan/day30/18/part-r-00000 
.... 

Можно ли создать таблицу импала, чтобы прочитать данные из /data/access/web1/* каталога (включая подкаталоги)

По умолчанию impala не запрашивает данные из подкаталогов.

Как включить рекурсивное чтение в импале?

Работать вокруг, чтобы создать таблицу разделов в импале. Но таблица разделов не соответствует нашему требованию.

Как решить эту проблему?

ответ

-2

заказ Hive external tables:

CREATE EXTERNAL TABLE my_external_table (c1 INT, c2 STRING, c3 TIMESTAMP) 
    LOCATION '/data/access/web1'; 

Impala будет считывать данные из заданного каталога HDFS рекурсивно.

Когда вы добавляете новые файлы в каталог HDFS, звоните refresh my_external_table; на Impala, чтобы уведомить Impala о новых данных.

+0

Я пробовал выше, и это не сработало. Импала, похоже, не имеет такой же функции, как рекурсивно. – tamersalama

+0

Какая ошибка у вас возникла? –

+0

Нет ошибок, просто «Операция не имеет результатов». – voldy

0

В настоящее время рекурсивное чтение файлов из подкаталогов под таблицей LOCATION не поддерживается в Impala. Пример: Если таблица создается с адресом «/ дом/данных/ввода /»

и если структура каталогов выглядит следующим образом:

/home/data/input/a.txt 
/home/data/input/b.txt 
/home/data/input/subdir1/x.txt 
/home/data/input/subdir2/y.txt 

затем Impala может запросить из следующих файлов только

/home/data/input/a.txt 
/home/data/input/b.txt 

Эти файлы не оспаривало

/home/data/input/subdir1/x.tx 
/home/data/input/subdir2/y.txt 

Как альтернативное решение, вы можете прочитать т он получает данные от Hive и вставляет в таблицу финальных улей.

Создайте представление Impala поверх этой таблицы для интерактивных или отчетов.

Вы можете установить эту функцию в Hive, используя приведенные ниже настройки конфигурации.

улей поддерживает подкаталог сканирование с параметрами

SET mapred.input.dir.recursive = TRUE;

и

SET hive.mapred.supports.subdirectories = TRUE;

Смежные вопросы