2014-12-04 3 views
1

Я пытаюсь написать работу sqoop для достижения ниже требования.Получение обновлений RDBMS в HDFS с использованием Sqoop

  1. У меня есть таблица XYZ, в которой ежедневно может быть создано 1 миллион новых записей и обновлено до 0,5 миллиона.
  2. У меня будет задание Sqoop в конце дня, которое должно получить данные дельта от XYZ до HDFS, а также получить обновленные записи и синхронизировать их с HDFS.

Я комфортно реализация пункта 1, но не могу найти подходящее решение для точки 2.

Пожалуйста, помогите !!!!

Спасибо, Raghu

+0

действительно ли мой ответ помог вам. – Bector

ответ

3

Для этого конкретного сценария вы можете сделать инкрементный sqoop где вы требовали
LastModified -check колонки last_modified_col-значение кого «2014-10-03 15: 29: 48,66"

см ниже примере для образца запроса

sqoop job –create incr1 — import –connect jdbc:mysql://192.168.199.137/testdb123 –username testdb123 –password testdb123 –table Paper_STAGE –incremental lastmodified –check-column last_modified_col –last-value “2014-10-03 15:29:48.66″ –split-by id –hive-table paper_stage –hive-import 

Hive и HDFS являются необязательными, вы можете выбрать любой из них, где бы вы ни находили данные.

Смежные вопросы