Мне нужно получить данные из базы данных Postgres в базу данных Accumulo. Мы надеемся использовать файлы последовательности для запуска работы с картой/сокращением, но не знаем, как начать. По внутренним техническим причинам нам нужно избегать Sqoop.Как добраться из базы данных Postgres до файла последовательности Hadoop?
Возможно ли это без Sqoop? Опять же, я действительно не знаю, с чего начать. Я пишу класс java для чтения всех записей (миллионов) в JDBC и каким-то образом выводит их в файл последовательности HDFS?
Спасибо за любой ввод!
P.S. - Я должен был упомянуть, что использование файла с разделителями - проблема, с которой мы сталкиваемся сейчас. Некоторые из наших являются длинными символьными полями, которые содержат разделитель, и поэтому не анализируются правильно. Поле может содержать даже вкладку. Мы хотели перейти из Postgres прямо в HDFS без синтаксического анализа.
Я должен был упомянуть, что использование разделительного файла - проблема, с которой мы имеем сейчас. Некоторые из наших являются длинными символьными полями, которые содержат разделитель, и поэтому не анализируются правильно. Поле может содержать даже вкладку. Мы хотели перейти из Postgres прямо в HDFS без синтаксического анализа. – user1660256
@ user1660256: Кажется, вы просто пинали банку по дороге. Как вы планируете обрабатывать данные при загрузке в HDFS? В какой-то момент вам придется разбираться. – Olaf
Я не уверен, что понимаю вас. Как только он находится в файле последовательности, данные будут в парах ключ/значение, и мы будем загружать значение как это без какого-либо анализа, не заботясь о том, были ли разделители в значении или нет. – user1660256