2015-10-11 2 views
0

Я готовлю кластер hadoop на четырех очень маленьких виртуальных серверах (2 ГБ оперативной памяти, 2Cores каждый) для доказательства концепции. Один сервер как узел имен и менеджер ресурсов, а три - узлы данных.Строительство кластера hadoop на небольших узлах

Каждый раз, когда я запускаю тестовое задание (файл 3,4 ГБ с данными), два узла данных (случайные) работают с максимальной способностью, а один из них спящий (мониторинг через htop). Все 3 узла данных видны в графическом интерфейсе hadoop. Что мне не хватает?

Любая помощь будет очень признательна.

пряжа-site.xml

<configuration> 
<!-- Site specific YARN configuration properties --> 
<property> 
    <name>yarn.resourcemanager.resource-tracker.address</name> 
    <value>hadoop-master:8031</value> 
</property> 
<property> 
    <name>yarn.resourcemanager.address</name> 
    <value>hadoop-master:8032</value> 
</property> 
<property> 
    <name>yarn.resourcemanager.scheduler.address</name> 
    <value>hadoop-master:8030</value> 
</property> 
<property> 
    <name>yarn.resourcemanager.admin.address</name> 
    <value>hadoop-master:8033</value> 
</property> 
<property> 
    <name>yarn.resourcemanager.webapp.address</name> 
    <value>hadoop-master:8088</value> 
</property> 
<property> 
    <name>yarn.nodemanager.resource.memory-mb</name> 
    <value>2048</value> 
</property> 
<property> 
    <name>yarn.nodemanager.aux-services</name> 
    <value>mapreduce_shuffle</value> 
</property> 
<property> 
    <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name> 
    <value>org.apache.hadoop.mapred.ShuffleHandler</value> 
</property> 
</configuration> 

HDFS-site.xml

<configuration> 
<property> 
    <name>dfs.data.dir</name> 
    <value>/opt/hadoop/hadoop/dfs/data</value> 
    <final>true</final> 
</property> 
<property> 
    <name>dfs.name.dir</name> 
    <value>/opt/hadoop/hadoop/dfs/name</value> 
    <final>true</final> 
</property> 
<property> 
    <name>dfs.replication</name> 
    <value>3</value> 
</property> 
<property> 
    <name>dfs.permissions</name> 
    <value>false</value> 
</property> 
<property> 
    <name>dfs.blocksize</name> 
    <value>67108864</value> 
</property> 

+0

Сколько файлов обрабатывается («3,4 ГБ» непонятно - один файл из 3,4 или два из 3 и 4?). Кроме того, какой тип/расширение? – Legato

+0

Прежде всего, это зависит от того, сколько задач обработано в вашей работе. Скажите, сколько карточек/редукторов у вас есть на эту работу? Также дайте нам еще одну информацию: какую работу вы выполняли и как вы ее запускали (команда hadoop или smth else)? – maxteneff

+0

Это один файл с объектами json (ID и json в строке). – Elentar

ответ

0

Я нашел решение.
Чтобы увеличить количество восстановителей в файле mapred-site.xml Я добавил

<property> 
    <name>A</name> 
    <value>5</value> 
</property> 

После того, как я добавил дополнительные узлы кластера, Hadoop увеличилась мапперы без каких-либо дополнительных изменений в конфигурации. Теперь все узлы данных работают с максимальной производительностью.

Смежные вопросы