Я использую Hadoop и сталкиваюсь с ужасной проблемой большого количества файлов. Мне нужно иметь возможность создавать хар-архивы из существующих разделов улей и запрашивать их одновременно. Тем не менее, Hive, по-видимому, поддерживает только архивирование разделов только в управляемых таблицах, а не внешних таблицах, что довольно грустно. Я пытаюсь найти обходное решение для этого, вручную архивируя файлы внутри каталога раздела в HAR, используя инструмент архива hadoop. Теперь мне нужно настроить куст, чтобы он мог напрямую запрашивать данные, хранящиеся в этих архивах, вместе с обычными данными, хранящимися в каталогах разделов. Обратите внимание, что мы используем только внешние таблицы.Запрос данных из архивов har - Apache Hive
Пространство имен для доступа к файлам в созданном разделе-har соответствует пути hdfs раздела dir. Например, Например, файл в HDFS:
hdfs:///user/user1/data/db1/tab1/ds=2016_01_01/f1.txt
может после архивирования доступен как:
har:///user/user1/data/db1/tab1/ds=2016_01_01.har/f1.txt
Будет ли возможность для улья запросить Хары из внешней таблицы? Пожалуйста, предложите способ, если да.
С наилучшими пожеланиями