Хотелось бы узнать, возможно ли организация изменить процесс интеграции данных с ETL на ELT, чтобы уменьшить время загрузки? и что, если инфраструктура DWH не соответствует?Переезд из ETL в ELT?
ответ
Я бы сказал, что это зависит от вашей целевой платформы DWH и ее производительности, а также от способности выполнять преобразования внутри. Я делал это в прошлом с Teradata DWH, где мы решили позволить системе Teradata делать тяжелый подъем, так как инструмент, который мы использовали, просто не мог выполнять преобразования, и мы могли бы написать SQL, который был бы намного более эффективным.
Также вы используете инструмент ETL? Существует ли потенциал оптимизации?
Мы реализовали аналогичную стратегию для вас, используя CDC в качестве инструмента для сбора данных, а затем SSIS (на самом деле взрослая версия) для переноса данных через задание. В нашем случае часть SSIS просто выгружает данные в промежуточную БД, периодически покидает основной сервер производственных данных клиента (разделение ресурсов), а затем хранимые процедуры в промежуточной БД берут на себя выполнение сложной операции преобразования. Таким образом, мы можем выводить на несколько целей, поскольку у нас есть обе цели DW и DM для предоставления данных в зависимости от источника. Это позволяет использовать как гибкость, так и снимать тяжелый подъем со стороны Извлечения, а также значительно упростить график технического обслуживания изменений.
Переключение между ETL and ELT может зависеть от многих факторов: деловой потребности, использования хранилища данных, используемых инструментов ETL/ELT и того, что доступно, источников данных и возможностей персонала поддержки/администратора. Поскольку ELT все еще созревает, для работы не существует широты доступных инструментов. Если ваш бизнес может справиться с возможностью наложения большей части работы по преобразованию или если вам повезло найти инструмент, который делает то, что вам нужно; то ELT является разумным переключателем.
В зависимости от размера и структуры ваших данных время загрузки может уменьшиться. Однако ваш хранилище данных на базе ETL не может быть структурировано для поддержки ELT. И поскольку ELT выполняет преобразования во время запроса, если данные загружаются в структуру схемы, которая не оптимизирована для запросов, это может быть вашим узким местом. Репозиторий с неправильной структурой, вероятно, создает больше проблем, чем переключение на ELT.
Итак, чтобы ответить на ваш последний вопрос: все зависит от того, как инфраструктура хранилища данных и структура схемы не совпадают. Вам нужна вычислительная мощность для обработки специальных запросов с помощью преобразований. Вам нужна структура DWH, которая поддерживает загрузку в основном всех ваших данных и удобна для запросов.
- 1. Что лучше, ETL или ELT?
- 2. Переезд в Maven из GNUMake
- 3. Переезд в Maven
- 4. Переезд в SHA-2
- 5. Это быстрее: $ (". Elt", $ this) или $ this.find (". Elt") ;?
- 6. Переезд из спринта в новый спринт
- 7. Переезд в новый фрагмент из ViewPager Содержание
- 8. Переезд из сообщества Neo4j в предприятие
- 9. Переезд в новый домен
- 10. Переезд в Azure
- 11. Переезд в .htaccess
- 12. Переезд laravel в живую сеть
- 13. ETL: извлечение из excel
- 14. TortoiseSVN (переезд в новый репозиторий)
- 15. Переезд для шахматной игры
- 16. Переезд Twilio в конференц-зал
- 17. Переезд по ref?
- 18. Переезд в Eclipse Indigo для разработки Android
- 19. Переезд в другой вид с помощью segue
- 20. Поймать конец возвращенной деятельности Переезд
- 21. Переезд из Mysql в nosql позже. Требования к коду?
- 22. ELT() с подзапроса вместо Params
- 23. Общий принцип ETL - ETL от неизвестного количества таблиц?
- 24. Как использовать ETL в WSO2?
- 25. SSIS ETL параллельное извлечение из файла AS400
- 26. Как выполнить файл jar из pentaho/ETL
- 27. etl и многие из многих отношений
- 28. Что противоположно ETL?
- 29. Обработка ошибок ETL в Talend
- 30. Какой инструмент ETL использовать?
На самом деле организация, с которой я работаю в рамках своей стажировки, использует SSIS в качестве инструмента ETL. И сейчас задача заключается в том, чтобы придумать решение для интеграции данных в реальном времени в DWH из разных источников (ERP). Я предложил CDC с SSIS управлять проблемой в реальном времени. И мне было интересно, как я могу объединить его с ELT для оптимизации. Но фактическая структура DWH не позволяет этому главному переключению с ETL на ELT или размещать все эти процессы трансляции. Вот почему я хочу знать, какие «корректировки» следует ввести в DWH для достижения этого? –