2015-04-28 3 views
3

Я участвую в концепции больших данных. Основываясь на моем понимании, Big Data имеет решающее значение для обработки неструктурированных данных и большого объема. Когда мы смотрим на большую архитектуру данных для хранилища данных (DW), данные из источника извлекаются через Hadoop (HDFS и Mapreduce), и соответствующая неструктурированная информация преобразуется в действительную бизнес-информацию, и, наконец, данные вводятся в DW или DataMart через обработку ETL (наряду с существующей обработкой данных).Обработка больших данных в Datawarehouse

Однако я хотел бы знать, какие новые методы/новая размерная модель или требования к хранилищу требуются для DW для организации (из-за больших данных), поскольку большинство учебных пособий/ресурсов я пытаюсь узнать только о Hadoop у источника, но не у цели. Как введение воздействия больших данных стандартных отчетов/АПЧРК анализ организации из-за этого большого объема данных

Цените ваш ответ

ответ

6

Это очень широкий вопрос, но я попытаюсь дать некоторые ответы.

Hadoop может быть источником данных, хранилищем данных или «озером данных», являющимся хранилищем данных, из которых могут быть нарисованы склады и витрины.

Линия между хранилищами данных Hadoop и RDBMS становится все более размытой. Поскольку SQL-on-Hadoop становится реальностью, взаимодействие с данными на основе Hadoop становится все более простым. Чтобы быть эффективными, в данных должна быть структура.

Некоторые примеры Hadoop/DW взаимодействий:

  • Application Platform системы Microsoft, с Polybase взаимодействия между SQL Server и Hadoop
  • Impala (Cloudera), Stinger (Hortonworks) и другие, обеспечивая SQL-on Hadoop
  • Actian и Vertica (HP) обеспечение RDBMS-совместимые MPP на Hadoop

это говорит, Hadoop DW еще незрелый. Он не так реален, как DWD на базе RDBMS, не хватает многих функций безопасности и работы, а также не хватает возможностей SQL. Подумайте о своих потребностях, прежде чем идти по этому пути.

Еще один вопрос, который вы должны задать, действительно ли вам нужна платформа такого типа. Любая РСУБД может обрабатывать 3-5 Тб данных. SQL Server и PostgreSQL - это два примера платформ, которые будут обрабатывать DW на товарном оборудовании и незначительное администрирование.

Те же РСУБД могут обрабатывать рабочие нагрузки 100Tb, но они требуют гораздо большей осторожности и питания в этом масштабе.

Приборная аппаратура MPP RDBMS обрабатывает рабочие нагрузки в диапазоне Petabyte с меньшими административными и эксплуатационными издержками при их масштабировании. Я сомневаюсь, что вы доберетесь до этого масштаба, очень немногие компании делают :) Вы можете выбрать устройство MPP для гораздо меньшего объема данных, если бы скорость сложных запросов была вашим самым важным фактором. По этой причине я видел устройства MPP, развернутые по объемам данных размером 5 Тб.

В зависимости от техники загрузки вы, вероятно, обнаружите, что DW на базе РСБД быстрее загружается, чем Hadoop. Например, я загружаю сотни тысяч строк в секунду в PostgreSQL и немного меньше, чем в SQL Server. Для достижения такого же результата в Hadoop требуется значительно больше времени, так как я должен глотать файл, установить его в Hive и перенести его в Parquet, чтобы получить аналогичный уровень производительности. Со временем я ожидаю, что это изменится в пользу Хадоопа, но пока это не совсем так.

Вы упомянули Dimensional Modeling. Если ваша звездная схема состоит из транзакционных таблиц фактов и размеров SCD0-SCD1, поэтому для обработки вставкой требуется успех с помощью SQL-on-Hadoop. Если вам нужно обновить факты (накапливать снимки) или размеры (SCD2, SCD3), вы можете бороться как с возможностями, так и с производительностью - многие реализации еще не поддерживают запросы UPDATE, а те, которые выполняются, медленны.

Извините, что нет простого «Сделайте это!». ответ, но это сложная тема в незрелом поле. Надеюсь, эти комментарии помогут вашему мышлению.

+0

Большое спасибо за ваше время, подробно разъяснив мои вопросы со многими ценными сведениями. Он действительно разъяснил мне и предоставил больше информации, которую мне нужно посмотреть на – Balaji

+0

@ Ron, это очень хорошая деталь ... очень полезно ... :) – sureshsiva

+0

@ Баладжи, вы должны отметить лучший ответ для ответа Рона :) .. – sureshsiva

0

Процесс хранения данных и хранилища данных не совпадает. Моделирование размеров в традиционном смысле начинается с идентификации бизнес-процессов и дизайна звездной схемы, где на озерах данных вы не делаете никаких предположений о бизнес-процессе. Данные озера собирают данные на очень узком уровне, насколько это возможно, исследуют его и находят бизнес обработать. Вы можете узнать больше о данных озера на An Introduction to enterprise data lake - The myths and miracles

Смежные вопросы