Hadoop Коэффициент репликации 1 на кластере из четырех узлов

У меня есть настройка на четырех узлах. Один узел предназначен для Namenode и вторичного NameNode. Остальные три являются datanodes. Я выполнил работу sqoop с коэффициентом репликации 3. Задание sqoop было успешным, и данные были на всех трех datanodes. Потребовалось около 1,5 часов, чтобы завершить работу с помощью 6 карт. Я выполнял ту же работу с коэффициентом репликации 1. Эта работа также была успешной, и она работала около 1 часа с 12 числом картографов.
мои вопросы:Hadoop Коэффициент репликации 1 на кластере из четырех узлов

1. when i ran the job for second time with replication factor of 1 where is the data stored? (Is the data split and stored in all the three datanodes? (or) The data is stored on the machine from which i ran the job?)

2. I have 6 core processors on each datanode with 64 GB of ram. Which are the properties should i set to obtain optimum values for the sqoop job?

Эти журналы для первой работы:

15/06/30 00:21:28 INFO mapreduce.Job: Counters: 30 File System Counters FILE: Number of bytes read=0 FILE: Number of bytes written=749046 FILE: Number of read operations=0 FILE: Number of large read operations=0 FILE: Number of write operations=0 HDFS: Number of bytes read=864 HDFS: Number of bytes written=253986997858 HDFS: Number of read operations=24 HDFS: Number of large read operations=0 HDFS: Number of write operations=12 Job Counters Launched map tasks=6 Other local map tasks=6 Total time spent by all maps in occupied slots (ms)=20582400 Total time spent by all reduces in occupied slots (ms)=0 Total time spent by all map tasks (ms)=20582400 Total vcore-seconds taken by all map tasks=20582400 Total megabyte-seconds taken by all map tasks=73767321600 Map-Reduce Framework Map input records=162991238 Map output records=162991238 Input split bytes=864 Spilled Records=0 Failed Shuffles=0 Merged Map outputs=0 GC time elapsed (ms)=187671 CPU time spent (ms)=21216950 Physical memory (bytes) snapshot=5210345472 Virtual memory (bytes) snapshot=57549950976 Total committed heap usage (bytes)=6410469376 File Input Format Counters Bytes Read=0 File Output Format Counters Bytes Written=253986997858 15/06/30 00:21:28 INFO mapreduce.ImportJobBase: Transferred 236.5438 GB in 5,524.6156 seconds (43.8439 MB/sec) 15/06/30 00:21:28 INFO mapreduce.ImportJobBase: Retrieved 162991238 records.

Они являются журналы для второй работы:

15/06/30 10:21:02 INFO mapreduce.Job: Counters: 30 File System Counters FILE: Number of bytes read=0 FILE: Number of bytes written=1498130 FILE: Number of read operations=0 FILE: Number of large read operations=0 FILE: Number of write operations=0 HDFS: Number of bytes read=1744 HDFS: Number of bytes written=253986997858 HDFS: Number of read operations=48 HDFS: Number of large read operations=0 HDFS: Number of write operations=24 Job Counters Launched map tasks=12 Other local map tasks=12 Total time spent by all maps in occupied slots (ms)=22551454 Total time spent by all reduces in occupied slots (ms)=0 Total time spent by all map tasks (ms)=22551454 Total vcore-seconds taken by all map tasks=22551454 Total megabyte-seconds taken by all map tasks=80824411136 Map-Reduce Framework Map input records=162991238 Map output records=162991238 Input split bytes=1744 Spilled Records=0 Failed Shuffles=0 Merged Map outputs=0 GC time elapsed (ms)=186898 CPU time spent (ms)=21910100 Physical memory (bytes) snapshot=9802846208 Virtual memory (bytes) snapshot=115099107328 Total committed heap usage (bytes)=12298747904 File Input Format Counters Bytes Read=0 File Output Format Counters Bytes Written=253986997858 15/06/30 10:21:02 INFO mapreduce.ImportJobBase: Transferred 236.5438 GB in 3,647.7444 seconds (66.4029 MB/sec) 15/06/30 10:21:02 INFO mapreduce.ImportJobBase: Retrieved 162991238 records.

источник

2015-06-30 Rahul Reddy

Вот мои ответы на ваши вопросы. 1. Когда вы работаете с коэффициентом репликации 1. ваша копия блока данных в HDFS - одна, но данные будут распределены по всем трем узлам. Поэтому блоки данных автоматически распределяются между кластерами.

указывает количество картографов в вашей работе в соответствии с основным/слотом, доступным в вашем кластере, который был бы оптимальным. У вас есть 6 основных машин, и я предполагаю, что назначение ядра для картографа равно 4 и редуктор равен 2. Таким образом, у вас есть 4 * 3 * 2 (2 картографа могут работать на каждом ядре) = 24 карты будут оптимальными для этой работы. по умолчанию

Надеюсь, это разъяснит ваши сомнения.

источник

2015-06-30 16:54:05

Сагар, пожалуйста, уточните? –

Hadoop Коэффициент репликации 1 на кластере из четырех узлов

ответ

Смежные вопросы