2015-01-13 2 views
1

У меня есть папка ввода, которая содержит много файлов. Я хотел бы сделать пакетную операцию на них, например, скопировать/переместить их на новый путь.Переместить/Скопировать файлы в Spark hadoop

Я хотел был бы сделать это используя Spark.

Пожалуйста, помогите/предложите, как это сделать.

+2

Почему Искробезопасная? Почему бы не использовать distcp? – climbage

+0

Spark на самом деле не является инструментом для обычного администрирования файлов. Так что было бы хорошо, если бы вы могли объяснить, какова ваша мотивация искры. – eckes

+0

Хотя это не изящно, это отличный способ подготовиться к среднему бонусу ... – undershock

ответ

3

Вы можете прочитать его, используя val myfile = sc.textFile("file://file-path"), если это локальный каталог и сохранить их, используя myfile.saveAsTexFile("new-location").

Какая искра будет состоять в том, чтобы прочитать все файлы и в то же время сохранить их в новом месте и сделать партию этих файлов и сохранить их в новом месте (HDFS/local).

Убедитесь, что один и тот же каталог, доступный в каждом рабочих узлах кластера искру

0

В верхнем случае вы должны иметь путь локальных файлов на каждом узле работника.

Если вы хотите избавиться от этого, вы можете использовать распределенную файловую систему, такую ​​как файловая система hadoop (hdfs).

В этом случае вы должны дать путь:

hdfs://nodename-or-ip:port/path-to-directory 
Смежные вопросы