2015-09-12 2 views
2

Я действительно не понимаю фактическую причину масштабирования хаопов лучше, чем РСУБД. Может кто-нибудь объяснить на гранулированном уровне? Связано ли это с базовыми структурами данных & алгоритмыСравнение Hadoop с RDBMS

+1

Hadoop НЕ является заменой для РСУБД. Я предлагаю вам прекратить слушать слухи и прочитать об этих технологиях, чтобы узнать реальность. – toddlermenot

ответ

6

RDBMS имеют проблемы в работе с большими объемами данных терабайт & PETA байт. Даже если у вас имеется избыточный массив независимых/недорогих дисков (RAID) &, он недостаточно масштабируется для огромного объема данных. Вам требуется очень дорогое оборудование.

EDIT: Чтобы ответить, почему РСУБД не могут масштабироваться, взглянуть на Overheads of RBDMS.

Заготовка леса. Сборка записей журнала и отслеживание всех изменений в структурах базы данных замедляет производительность. Ведение журнала может быть не , если восстановление не является требованием или если возможность восстановления предоставляется с помощью других средств (например, других сайтов в сети).

Блокировка. Традиционная двухфазная блокировка создает значительные накладные расходы , так как все обращения к структурам базы данных регулируются отдельным объектом, Lock Manager, .

Latching. В многопоточной базе данных многие структуры данных должны быть зафиксированы перед их доступом. Удаление этой функции и переход к однопоточному подходу имеет заметное влияние производительности .

управления Buffer. Системе базы данных основной памяти не требуется , чтобы получить доступ к страницам через пул буферов, исключая уровень для каждого доступа к записи.

Как Hadoop обрабатывает:

Hadoop является свободной, Java на основе рамки программирования, который поддерживает обработку больших массивов данных в распределенной вычислительной среде, которые могут работать на аппаратном обеспечении. Это полезно для хранения & извлечения огромных объемов данных.

Эта масштабируемость & эффективность возможны реализации Hadoop механизма хранения (HDFS) & рабочих мест обработки (НИТИ Карта сократить рабочие места). Помимо масштабируемости, Hadoop обеспечивает высокую доступность сохраненных данных.

Масштабируемость, высокая доступность, обработка огромных объемов данных (структурированные данные, неструктурированные данные, полуструктурированные данные) с гибкостью являются ключом к успеху Hadoop.

Данные хранятся на тысячах узлов & Обработка выполняется на узле, где хранятся данные (в большинстве случаев) через Map Сократить задания. Местоположение данных на передней панели обработки является одной из ключевых областей успеха Hadoop.

Это было достигнуто с помощью Название Узел, Узел данных & Менеджер ресурсов.

Чтобы понять, как Hadoop достичь этого, вы должны должны посетить эти ссылки: HDFS Architecture, YARN Architecture и HDFS Federation

Еще RDBMS хороша для многократного считывания/записи/обновления и последовательной ACID транзакций на Giga байт данных. Но не подходит для обработки байтов Tera & Пета байтов данных. NoSQL с двумя параметрами согласованности, доступности. Разделение атрибутов теории CAP является хорошим в некоторых случаях.

Но Hadoop не предназначен для поддержки транзакций в реальном времени с использованием свойств ACID. Это хорошо для отчетов бизнес-аналитики с пакетной обработкой - «Пишите один раз, несколько читайте» парадигма.

От slideshare.net RDBMS vs Hadoop

Посмотрите еще одного связанного SE вопрос:

NoSql vs Relational database

+0

Согласен. Локальность данных является ключевой особенностью Hadoop, в которой код перемещается туда, где находятся данные, и данные не перетекают через сеть, подлежащую обработке. То, о чем вы упоминали выше относительно RAID, связано с возможностью кластеризации в РСУБД. Простите меня, я не парень базы данных. Если это способ добиться кластеризации в мире РСУБД, то в чем главная причина этого, требующая дорогостоящего оборудования для работы лучше. – redeemed

+0

RAID + Data shreds - это способ масштабируемости RDBMS, но не очень успешный.Это очень дорого с ограниченным успехом –

+0

Спасибо. Но мой вопрос заключается в том, что является основной причиной не-масштабируемости РСУБД. – redeemed

1

Во-первых, hadoop НЕ является заменой БД.

РСУБД шкала вертикальная и шкала шкалы горизонтальной.

Это означает, что в два раза масштабировать СУБД, необходимо иметь оборудование с двойной памятью, двойным хранением и двойным центральным процессором. Это очень дорого и имеет ограничения. Например, нет сервера с 10 ТБ оперативной памяти. С hadoop отличается, вам не нужны дорогие технологии кромок, вместо этого вы можете использовать несколько товарных серверов, работающих вместе для имитации большего сервера (с некоторыми ограничениями). У вас может быть кластер с 10 Tb RAM, распределенный в нескольких узлах.

Другое преимущество заключается в том, что вместо того, чтобы иметь, чтобы купить новый более мощный сервер и падение старого, масштабировать распределенные системы требуется только для добавления новых узлов в кластер.

-1

В РСУБД, данные структурированы, а это индексируется. Получение данных любого конкретного столбца «nth» загружает всю базу данных, а затем выбирает столбец «nth».

где, как и в Hadoop, скажем, Hive, мы загружаем только конкретный столбец из всего набора данных. Более того, при загрузке данных также выполняются программы сокращения карты, которые выполняются в распределенной структуре, которые сокращают общее время.

Следовательно, два преимущества использования Hadoop и его инструментов.

Смежные вопросы