Я копия вставила строку, которая выглядит как этотСпарк wholeTextFiles разницы между оболочкой и приложением
val files = sc.wholeTextFiles("file:///path/to/files/*.csv")
от искровой оболочки, где он работает, с приложением, в котором он не запускается. Вместо этого я получаю, что шаблон соответствует 0 файлам, хотя в оболочке я могу видеть все файлы, и Spark читает их.
Что мне не хватает? Это проблема с правами доступа к файлам?
Я бегу приложение следующим образом:
spark-submit \
--master yarn \
--deploy-mode cluster \
--files /usr/hdp/current/spark/conf/hive-site.xml \
--num-executors 20 \
--driver-memory 8G \
--executor-memory 4G \
--class com.myorg.pkg.MyApp \
MyApp-assembly-0.1.jar
Ваш файл присутствует в локальной файловой системе или hdfs? –
Вы предоставляете абсолютный путь или относительный путь? – user1314742
Это на локальной FS, и путь такой же, как в примерном примере: абсолютный. – Ian