Я использую Spring Batch для извлечения-преобразования-массива массированных онлайн-данных в хранилище данных для анализа рекомендаций. Оба являются РСУБД.Лучшая практика использования ETL с использованием Spring Batch?
Мой вопрос в том, что является лучшей практикой для автономного Spring Batch ETL? Полная загрузка или добавочная нагрузка? Я предпочитаю полную загрузку, потому что это проще. В настоящее время я использую эти шаги для задания загрузки данных:
step1: обрезать таблицу A в хранилище данных;
step2: загрузить данные в таблицу A;
step3: обрезать таблицу B в хранилище данных;
step4: загрузить данные в таблицу B;
step5: обрезать таблицу C в хранилище данных;
step6: загрузить данные в таблицу C;
...
эти таблицы A
, B
, C
... в хранилище данных используются в режиме реального времени обработки системы рекомендаций.
Но так как данные, которые я загружаю из онлайн-бара, массивны, вся обработка работы будет очень трудоемкой. Поэтому, если я усекаю таблицу и еще не загружал данные, обработка рекомендаций в режиме реального времени, основанная на этой таблице, будет иметь большую проблему. Как я могу предотвратить эту неполноту данных? Использование Staging Table или какой-либо стратегии?
Любой ответ будет очень благодарен.
Это не вопрос весенней партии; это просто проблема с дизайном ETL. – Ickster
Спасибо за ваше напоминание. Я изменил теги. – Wuaner