Я делаю личный проект, который состоит из создания полной архитектуры хранилища данных (DWH). В этом случае в качестве инструмента анализа ETL и BI я решил использовать Pentaho; он обладает множеством функциональных возможностей, позволяя создавать легкие панели, полные процессы интеллектуального анализа данных и кубы OLAP.Создание хранилища данных в реальном времени
Я читал, что хранилище данных должно быть реляционной базой данных и понимать это. Я не понимаю, как достичь почти реального времени или полностью DWH в реальном времени. Я читал о стратегиях выталкивания и вытягивания, но мои выводы заключаются в следующем:
- Выбор СУБД не важен для создания DWH реального времени. Я имею в виду, что это возможно с MySQL, SQL Server, Oracle или любым другим. Поскольку я делаю это как личный проект, я выбираю MySQL.
- Ключевым фактором является частота планирования заданий, и это задача планировщика. Правильно ли это предположение? Я имею в виду, что ключом к созданию DWH в реальном времени является создание рабочих мест каждую секунду для каждого процесса ETL?
Если я ошибаюсь, можете ли вы мне помочь, чтобы понять это? И тогда, каким образом можно создать DWH реального времени? Является ли любой планировщик с открытым исходным кодом, который позволяет это? И какой-то не планировщик с открытым исходным кодом, который позволяет это?
Я очень смущен, потому что в некоторых ссылках говорится, что это невозможно, другие возможны.
Очень немногие компании реализуют хранилище данных в реальном времени. Для них это не стоит влиять на операционные базы данных. Как правило, типы запросов, запрашиваемых хранилищем данных, требуют доступа к большому количеству исторических данных. –