Если ваш минимальный размер хранилища на кластере не удваивается по размеру ваших данных, тогда вы получите недоразмещенные блоки. Недостаточно-реплицированный блок - это те, которые реплицируются на коэффициент репликации <, поэтому если коэффициент репликации равен 2, у вас будут коэффициенты репликации равные 1.
И репликация данных не является недостатком Hadoop вообще, на самом деле это неотъемлемая часть того, что делает Hadoop эффективным. Он не только обеспечивает вам достаточную степень отказоустойчивости, но также помогает выполнять задания на карте близко к данным, чтобы избежать дополнительной нагрузки на сеть (читайте о локальности данных).
Учтите, что один из узлов в вашем кластере отключается. У этого узла будут храниться некоторые данные, и если вы не будете реплицировать свои данные, тогда часть ваших данных будет недоступна из-за сбоя узла. Однако, если ваши данные реплицируются, данные, которые были на узле, который спустился, по-прежнему будут доступны вам из других узлов.
Если вы не чувствуете необходимость репликации данных, вы всегда можете установить ваш коэффициент репликации = 1.
Большое спасибо Chaos – Vishwa