Я пытаюсь скопировать большой объем данных (несколько тысяч файлов, добавляющих до 19 ТБ) в мой кластер Hadoop. Я бегу цикл Баш над подмножествами файлов и более петель я бегу, тем медленнее все, копируетHadoop с несколькими командами замедления
for filename in /path/to/my/data/*.csv;
do cat $filename | ssh [email protected] "hadoop fs -put - /path/to/new/data/$filename";
done
Та же проблема возникает, когда я двигаюсь данные вокруг на кластере, так что я не думаю, это копирование по сети, которая вызывает проблему.
Вопрос: Может ли Hadoop обрабатывать несколько одновременных команд put
? Является ли то, что я ожидаю?
Редактировать: Спецификации кластера: 9 серверов, 4 диска на сервер, 24 ТБ, доступных на каждом узле. Около полудюжины команд ввода.
Сколько серверов и дисков в кластере Hadoop у вас есть? Сколько параллельных команд 'put' вы запускаете? – gudok
9 серверов, 4 диска на сервер, 24 Тб доступно на каждом узле. Около полудюжины команд 'put'. – Sal