У меня есть несколько таблиц Hive, где некоторые из них находятся в формате Avro, а некоторые из них находятся в текстовом файле. Схемы немного разные, но все они содержат определенные атрибуты, которые мне нужны.Карта Java уменьшает чтение из другого формата - Avro, Textfile
Я планирую написать карту, чтобы уменьшить процесс обработки данных. Вопрос в том, что я стараюсь избегать тонны отдельных рабочих мест и стараться максимально упростить процесс. Скрестив пальцы, мне нужно только написать одну работу.
Есть ли какой-нибудь пример показа, как читать разные форматы входов в одном устройстве.
Скажем, например, у меня есть путь hdfs, который я знаю в AVRO, и у меня также есть другой путь hdfs, где данные находятся в текстовом файле.
// Pseudo code
mapper (Paths){
for(Path in Paths){
if Path.containsAvro() {
... read as avro
} else {
... read as textfile
}
..
}
}