Я готовлю кластер hadoop на четырех очень маленьких виртуальных серверах (2 ГБ оперативной памяти, 2Cores каждый) для доказательства концепции. Один сервер как узел имен и менеджер ресурсов, а три - узлы данных.Строительство кластера hadoop на небольших узлах
Каждый раз, когда я запускаю тестовое задание (файл 3,4 ГБ с данными), два узла данных (случайные) работают с максимальной способностью, а один из них спящий (мониторинг через htop). Все 3 узла данных видны в графическом интерфейсе hadoop. Что мне не хватает?
Любая помощь будет очень признательна.
пряжа-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>hadoop-master:8031</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>hadoop-master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>hadoop-master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>hadoop-master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>hadoop-master:8088</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>2048</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
HDFS-site.xml
<configuration>
<property>
<name>dfs.data.dir</name>
<value>/opt/hadoop/hadoop/dfs/data</value>
<final>true</final>
</property>
<property>
<name>dfs.name.dir</name>
<value>/opt/hadoop/hadoop/dfs/name</value>
<final>true</final>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<property>
<name>dfs.blocksize</name>
<value>67108864</value>
</property>
Сколько файлов обрабатывается («3,4 ГБ» непонятно - один файл из 3,4 или два из 3 и 4?). Кроме того, какой тип/расширение? – Legato
Прежде всего, это зависит от того, сколько задач обработано в вашей работе. Скажите, сколько карточек/редукторов у вас есть на эту работу? Также дайте нам еще одну информацию: какую работу вы выполняли и как вы ее запускали (команда hadoop или smth else)? – maxteneff
Это один файл с объектами json (ID и json в строке). – Elentar