Мы получаем разновидности JSONs/XML в качестве входных данных, где схема всегда развивается. Я хочу обрабатывать их с использованием формата ORC или Parquet в среде Hadoop/Hive для повышения производительности.Преобразование схемы развития (SCD) JSON/XML в формат ORC/Паркет
Я знаю ниже общий стиль достижения той же цели: Используйте библиотеку JSONSerde или XMLSerde, сначала создайте таблицу улья, используя эти serde. Позже выберите запрос * полей, который будет запущен в каждой таблице hive xml/json для сохранения в качестве orc или сохранения в виде паркета в другую таблицу. После успешного завершения я могу удалить данные Serde Table и XML/JSON.
Что было бы другим хорошим способом сделать то же самое?