2015-12-13 3 views
2

Как я могу это исправить?Целевые реплики 10, но найдено 3 реплики

/tmp/hadoop-yarn/staging/ubuntu/.staging/job_1450038005671_0025/job.jar: Under replicated BP-938294433-10.0.1.190-1450037861153:blk_1073744219_3398. Target Replicas is 10 but found 3 replica(s). 

Я получаю это когда я бегу hadoop fsck / в моем главном узле. Предполагаю, что я должен изменить файл .xml в conf или что-то подобное. Я просто не знаю, какой файл изменить.

Отметьте, что dfs.replication в hdfs-site.xml уже установлен в 3. У меня нет dfs.replication.max в моем hdfs-site.xml файлах.

ответ

6

Количество копий для файлов, представленных как часть вашей работы (банки и т. Д.), Контролируется параметром mapreduce.client.submit.file.replication (или mapred.submit.replication в до 2.4 кластерах) в mapred-site.xml. Вы можете настроить это для кластеров, которые меньше 10 узлов, или просто игнорировать сообщение из fsck.

FWIW, для этого есть JIRA, но я сомневаюсь, что он когда-либо будет работать.

1

HDFS файл конфигурации hdfs-site.xml должен содержать dfs.replication свойство, которое описывает фактор репликации блока:

<configuration> 
    <property> 
    <name>dfs.replication</name> 
    <value>3</value> 
    </property> 
</configuration> 

По умолчанию hdfs-site.xml расположение /etc/hadoop/hdfs-site.xml

+0

В этом файле установлено 3, поэтому я не уверен, почему я получаю эту ошибку !? –

+1

Это еще один вопрос :) Попробуйте установить свойство 'dfs.replication.max' в 3 в файле конфигурации. – maxteneff

+0

см. Обновление. У меня нет 'dfs.replication.max' в моем' hdfs-site.xml' как свойство. –

1

Вы можете игнорировать. /tmp/hadoop-yarn/staging/ubuntu/.staging/job_1450038005671_0025/job.jar, это ресурс работы. dfs.replication не влияет на ресурсы работы.

  1. Работа ресурсы, такие как баночки файлы, файлы передаются с помощью -файлов (распределенный кэш) будет скопирован в HDFS, используя 10 в качестве фактора репликации
  2. Когда задание выполняется, эти ресурсы заданий (код) будет скопированы к контейнеру/задаче для обработки данных
  3. После завершения задания на основе пороговых значений эти ресурсы будут автоматически переработаны.

Эта функция помогает во внедрении локализации данных (где код относится к данным) при обработке данных.

Смежные вопросы