1

Мы получаем разновидности JSONs/XML в качестве входных данных, где схема всегда развивается. Я хочу обрабатывать их с использованием формата ORC или Parquet в среде Hadoop/Hive для повышения производительности.Преобразование схемы развития (SCD) JSON/XML в формат ORC/Паркет

Я знаю ниже общий стиль достижения той же цели: Используйте библиотеку JSONSerde или XMLSerde, сначала создайте таблицу улья, используя эти serde. Позже выберите запрос * полей, который будет запущен в каждой таблице hive xml/json для сохранения в качестве orc или сохранения в виде паркета в другую таблицу. После успешного завершения я могу удалить данные Serde Table и XML/JSON.

Что было бы другим хорошим способом сделать то же самое?

ответ

0

Как вам было предложено, это самый распространенный способ сделать автономное преобразование данных JSON/XML в формат паркета. Но другим способом может быть анализ JSON/XML и создание паркетных групп для каждой записи JSON. По существу:

Открыть JSON файл Прочитайте каждую отдельную запись Открыть другой файл Создать Паркетную группу из считанной записи в # 2 Написать паркетную группу файл, созданный в # 3 Сделайте это для всех записей файл Закройте оба файла.

Мы придумали такой конвертер для одного из наших использованных случаев.

Смежные вопросы