У меня есть кластер hadoop с двумя компьютерами, один как мастер и еще один как раб. Мои входные данные присутствуют на локальном диске Master, и я также скопировал файлы входных данных в системе HDFS. Теперь мой вопрос: если я запустил задачу MapReduce в этом кластере, тогда весь входной файл присутствует только в одной системе [которая, по моему мнению, противоречит основному принципу MapReduce «Местоположение данных»]. Я хотел бы знать, есть ли какой-либо механизм для распределения/разделения исходных файлов, чтобы входные файлы могли быть распределены на разных узлах кластера.Как распределить исходные входные файлы на узлы в Hadoop MapReduce?
ответ
Допустим, что ваш кластер состоит из узла 1 и узла 2. Если Node 1 является ведущим, то на этом узле нет Datanode. Таким образом, у вас есть только Datanode на узле 2, поэтому я не уверен, что вы имеете в виду, когда говорите "so that the input files can be distributed on the different nodes of the cluster"
, потому что с вашей текущей настройкой у вас есть только один узел, на котором можно хранить данные.
Но если вы рассматриваете общий кластер узлов n, то, если вы скопируете данные в HDFS, тогда данные будут распределены на разные узлы кластера с помощью самого хаопа, поэтому вам не придется беспокоиться об этом.
Спасибо большое, ребята. То, что меня смущает, - это если n узлов и hasoop выполняет репликацию данных, то не использует полосу пропускания сети [для выполнения репликации данных]. Является ли эта хорошая производительность мудрым? – udag
он будет определенно использовать пропускную способность сети всякий раз, когда вы помещаете файл в HDFS, даже без репликации, но это неотъемлемая часть распределенной системы. Теперь, когда вы говорите: «Является ли эта хорошая производительность мудрым», предполагая, что вы имеете в виду скорость записи файлов, да, она будет медленнее, чем запись на одном узле без распространения, но опять же Hadoop предназначен для чтения одноразового чтения данных, поэтому не так важно иметь хорошую производительность при записи файлов. – Chaos
- 1. Hadoop Входные файлы Order
- 2. Входные файлы Hadoop
- 3. Как шкала Hadoop/MapReduce, когда входные данные НЕ хранятся?
- 4. Как удалить входные файлы после успешного mapreduce
- 5. mapreduce in java - входные файлы gzip
- 6. Отдельные выходные файлы в hadoop mapreduce
- 7. Есть ли способ для полностью распределенной программы Hadoop/MapReduce, чтобы отдельные узлы читали локальные файлы ввода?
- 8. Hadoop MapReduce
- 9. Сортировка в MapReduce Hadoop
- 10. hadoop pig mapreduce распространенные файлы cach
- 11. Hadoop: MapReduce: Выбор узла
- 12. Hadoop - MapReduce
- 13. Hadoop MapReduce - Как улучшить параллелизм
- 14. Укажите Hadoop mapreduce входные ключи напрямую (не из файла)
- 15. Дубликаты в hadoop mapreduce
- 16. Входные разрывы в Hadoop
- 17. в hadoop, будут ли файлы скопированы на ведущие узлы или подчиненные узлы
- 18. ArrayIndexOutofBoundsException с Hadoop MapReduce
- 19. Hadoop MapReduce практика файл
- 20. Hadoop MapReduce - Pig/Cassandra - Невозможно создать входные расщепления
- 21. Hadoop Распределить файловую систему
- 22. Hadoop mapreduce с размером ввода ~ 2Mb slow
- 23. Параллельный запуск MapReduce на Hadoop
- 24. входные данные программы Mapreduce
- 25. Как вы используете MapReduce/Hadoop?
- 26. Hadoop MR: лучше иметь сжатые входные файлы или необработанные файлы?
- 27. DataJoins в Hadoop MapReduce
- 28. Ошибка в Hadoop MapReduce
- 29. Как распределить входные массивы с помощью f2py?
- 30. Работает ли Hadoop MapReduce на каждой машине?
Зачем вам нужно беспокоиться об этом с помощью 2 компьютеров? И почему вы должны об этом беспокоиться, пусть Hadoop обрабатывает репликацию данных. –
Если коэффициент репликации больше 2, ваш файл фактически существует на обеих машинах. – climbage
@climbage, но один из его узлов является главным узлом, поэтому он не будет запускать datanode – Chaos