У меня есть каталог в HDFS, содержащий около 10 000 XML-файлов. У меня есть сценарий python «processxml.py», который принимает файл и выполняет некоторую обработку на нем. Можно ли запустить скрипт во всех файлах в каталоге hdfs или мне нужно скопировать их в локальный первый, чтобы сделать это?Обработка нескольких файлов в HDFS через Python
Например, когда я запускаю скрипт на файлы в локальном каталоге у меня есть:
cd /path/to/files
for file in *.xml
do
python /path/processxml.py
$file > /path2/$file
done
Так в основном, как бы я идти о делать то же самое, но на этот раз файлы в HDFS?
Возможно, вы измените файл processxml.py? Вы можете использовать пакет hdfs python: http://hdfscli.readthedocs.org/en/latest/quickstart.html#reading-and-writing-files, который позволяет вам обращаться к файлам без необходимости их хранения на вашем диске в качестве промежуточный шаг, но если вы не сможете изменить свой процессор xml, он, вероятно, вам не поможет. –
Да, я могу изменить файл .py, я буду читать документацию ..thanks @TomDalton – Danzo