2013-07-14 5 views
0

У меня есть данные о 5 ТБ и фактический размер всего размера объединенного кластера 7 ТБ и я установить коэффициент репликации до 2.фактор репликации в Hadoop

  1. В этом случае, как это будет копировать данные?

  2. Из-за фактора репликации минимальный размер хранилища в кластере (узлах) должен быть всегда вдвое больше размера данных. Как вы считаете, это недостаток в Hadoop?

ответ

0

Это случай репликации. Предположим, у вас есть 5 блоков. HDFS удалось создать реплики только для первых 3 блоков из-за ограниченного пространства. Теперь два других блока реплицируются. Когда HDFS найдет достаточное пространство, он попытается также воспроизвести 2 блока.

4

Если ваш минимальный размер хранилища на кластере не удваивается по размеру ваших данных, тогда вы получите недоразмещенные блоки. Недостаточно-реплицированный блок - это те, которые реплицируются на коэффициент репликации <, поэтому если коэффициент репликации равен 2, у вас будут коэффициенты репликации равные 1.

И репликация данных не является недостатком Hadoop вообще, на самом деле это неотъемлемая часть того, что делает Hadoop эффективным. Он не только обеспечивает вам достаточную степень отказоустойчивости, но также помогает выполнять задания на карте близко к данным, чтобы избежать дополнительной нагрузки на сеть (читайте о локальности данных).

Учтите, что один из узлов в вашем кластере отключается. У этого узла будут храниться некоторые данные, и если вы не будете реплицировать свои данные, тогда часть ваших данных будет недоступна из-за сбоя узла. Однако, если ваши данные реплицируются, данные, которые были на узле, который спустился, по-прежнему будут доступны вам из других узлов.

Если вы не чувствуете необходимость репликации данных, вы всегда можете установить ваш коэффициент репликации = 1.

+1

Большое спасибо Chaos – Vishwa

0

Репликация данных не является недостатком Hadoop - это фактор, который повышает эффективность Hadoop (HDFS). Репликация данных на большее количество подчиненных узлов обеспечивает высокую доступность и хорошую отказоустойчивость кластера. Если мы рассмотрим потери, понесенные клиентом из-за простоев узлов в кластере (как правило, будет в миллионах долларов США), затраты, потраченные на покупку дополнительного хранилища, необходимого для репликации данных, намного меньше. Таким образом, репликация данных оправдана.

Смежные вопросы