Это очень широкий вопрос, но я попытаюсь дать некоторые ответы.
Hadoop может быть источником данных, хранилищем данных или «озером данных», являющимся хранилищем данных, из которых могут быть нарисованы склады и витрины.
Линия между хранилищами данных Hadoop и RDBMS становится все более размытой. Поскольку SQL-on-Hadoop становится реальностью, взаимодействие с данными на основе Hadoop становится все более простым. Чтобы быть эффективными, в данных должна быть структура.
Некоторые примеры Hadoop/DW взаимодействий:
- Application Platform системы Microsoft, с Polybase взаимодействия между SQL Server и Hadoop
- Impala (Cloudera), Stinger (Hortonworks) и другие, обеспечивая SQL-on Hadoop
- Actian и Vertica (HP) обеспечение RDBMS-совместимые MPP на Hadoop
это говорит, Hadoop DW еще незрелый. Он не так реален, как DWD на базе RDBMS, не хватает многих функций безопасности и работы, а также не хватает возможностей SQL. Подумайте о своих потребностях, прежде чем идти по этому пути.
Еще один вопрос, который вы должны задать, действительно ли вам нужна платформа такого типа. Любая РСУБД может обрабатывать 3-5 Тб данных. SQL Server и PostgreSQL - это два примера платформ, которые будут обрабатывать DW на товарном оборудовании и незначительное администрирование.
Те же РСУБД могут обрабатывать рабочие нагрузки 100Tb, но они требуют гораздо большей осторожности и питания в этом масштабе.
Приборная аппаратура MPP RDBMS обрабатывает рабочие нагрузки в диапазоне Petabyte с меньшими административными и эксплуатационными издержками при их масштабировании. Я сомневаюсь, что вы доберетесь до этого масштаба, очень немногие компании делают :) Вы можете выбрать устройство MPP для гораздо меньшего объема данных, если бы скорость сложных запросов была вашим самым важным фактором. По этой причине я видел устройства MPP, развернутые по объемам данных размером 5 Тб.
В зависимости от техники загрузки вы, вероятно, обнаружите, что DW на базе РСБД быстрее загружается, чем Hadoop. Например, я загружаю сотни тысяч строк в секунду в PostgreSQL и немного меньше, чем в SQL Server. Для достижения такого же результата в Hadoop требуется значительно больше времени, так как я должен глотать файл, установить его в Hive и перенести его в Parquet, чтобы получить аналогичный уровень производительности. Со временем я ожидаю, что это изменится в пользу Хадоопа, но пока это не совсем так.
Вы упомянули Dimensional Modeling. Если ваша звездная схема состоит из транзакционных таблиц фактов и размеров SCD0-SCD1, поэтому для обработки вставкой требуется успех с помощью SQL-on-Hadoop. Если вам нужно обновить факты (накапливать снимки) или размеры (SCD2, SCD3), вы можете бороться как с возможностями, так и с производительностью - многие реализации еще не поддерживают запросы UPDATE, а те, которые выполняются, медленны.
Извините, что нет простого «Сделайте это!». ответ, но это сложная тема в незрелом поле. Надеюсь, эти комментарии помогут вашему мышлению.
Большое спасибо за ваше время, подробно разъяснив мои вопросы со многими ценными сведениями. Он действительно разъяснил мне и предоставил больше информации, которую мне нужно посмотреть на – Balaji
@ Ron, это очень хорошая деталь ... очень полезно ... :) – sureshsiva
@ Баладжи, вы должны отметить лучший ответ для ответа Рона :) .. – sureshsiva