Чтобы получить данные в HDFS в вашей виртуальной машине, вам необходимо будет использовать команду hdfs
для перемещения файлов из локальной файловой системы в вашей виртуальной машине в HDFS в виртуальной машине. Команда должна выглядеть примерно так:
hadoop fs -put filename.log /my/hdfs/path
Для получения дополнительной информации о HDFS команды, пожалуйста, обратитесь к Hadoop File System Shell Commands.
Если вы используете Apache Spark, вы также можете обратиться к локальной файловой системе вместо HDFS. Для этого вы должны использовать file:///...
вместо hdfs://...
. Например, чтобы получить доступ к файлу в HDFS с помощью искры, как правило, можно выполнить команду, как:
val mobiletxt = sc.textFile("/data/filename.txt")
, но вы также можете получить доступ к локальной файловой системе ВМ как:
val mobiletxt = sc.textFile("file:///home/user/data/filename.txt")
Что касается Apache Цеппелина , это интерфейс ноутбука для работы с Apache Spark (и другими системами); там ток не является механизмом импорта внутри самого Zeppelin. Вместо этого вы будете делать что-то вроде выше в своем ноутбуке для доступа к HDFS или локальной файловой системе VM.
Чтобы получить файлы с вашего хоста на виртуальную машину, вам необходимо использовать SCP или (S) FTP –