Я пытаюсь получить Hadoop и Map/Reduce, чтобы начать использовать отдельный временный каталог вместо/tmp в моем корневом каталоге.Временная директория Hadoop/MR
Я добавил следующее мое ядро-site.xml конфигурационный файл:
<property>
<name>hadoop.tmp.dir</name>
<value>/data/tmp</value>
</property>
Я добавил следующее в мой MapReduce-site.xml конфигурационный файл:
<property>
<name>mapreduce.cluster.local.dir</name>
<value>${hadoop.tmp.dir}/mapred/local</value>
</property>
<property>
<name>mapreduce.jobtracker.system.dir</name>
<value>${hadoop.tmp.dir}/mapred/system</value>
</property>
<property>
<name>mapreduce.jobtracker.staging.root.dir</name>
<value>${hadoop.tmp.dir}/mapred/staging</value>
</property>
<property>
<name>mapreduce.cluster.temp.dir</name>
<value>${hadoop.tmp.dir}/mapred/temp</value>
</property>
Независимо от того, какую работу я выполняю, он все еще выполняет всю промежуточную работу в каталоге/tmp. Я смотрел, как это делается через df -h, и когда я туда захожу, есть все временные файлы, которые он создает.
Я что-то упустил из конфигурации?
Это 10 узловой кластер Linux CentOS, работающий под управлением 2.1.0.2.0.6.0 Hadoop/Yarn Mapreduce.
EDIT: После некоторых дальнейших исследований настройки, похоже, работают с моими ячейками управления и namednode/secondarynamed. Только на узлах данных это не работает, и только с временными выходными файлами mapreduce, которые все еще идут на/tmp на моем корневом диске, а не на моем монтировании данных, где я установлен в файлах конфигурации.
Вы внесли изменения в каждый из конфигурационных файлов (в каждом из узлов)? Узлы собирают свои собственные файлы конфигурации, а не узлы главного узла. – cabad
Мы используем Ambari для администрирования кластера, и он заботится о том, чтобы отменить изменения ко всем другим узлам узла управления. Я проверил после внесения изменений, что все узлы core-site.xml и mapred-site.xml-файлы имели одинаковые изменения конфигурации. – NotSoCleverDBA