У меня есть много файлов в HDFS, все из них - zip-файл с одним CSV-файлом внутри него. Я пытаюсь распаковать файлы, чтобы я мог запустить на них потоковое задание.Разархивировать файлы с использованием потоковой передачи hadoop
Я пробовал:
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar \
-D mapred.reduce.tasks=0 \
-mapper /bin/zcat -reducer /bin/cat \
-input /path/to/files/ \
-output /path/to/output
Однако я получаю сообщение об ошибке (subprocess failed with code 1
) Я также попытался запустить на одном файле, такая же ошибка.
Любые советы?
Это не имеет значения - задача картографа декодирует файл Zip, Hadoop не нужно знать ничего о его формате. –