Мне нужно прочитать кучу файлов JSON из каталога HDFS. После завершения обработки Spark необходимо поместить файлы в другой каталог. Тем временем, может быть добавлено больше файлов, поэтому мне нужен список файлов, которые были прочитаны (и обработаны) Spark, так как я не хочу удалять те, которые были , а не, но обработаны.Spark read.json с именами файлов
Функция read.json
преобразует файлы непосредственно в DataFrames, что очень круто, но это не дает мне имен файлов, таких как wholeTextFiles
. Есть ли способ читать данные JSON, а также получать имена файлов? Существует ли преобразование из RDD (с данными JSON) в DataFrame?
Я забыл добавить: я на 1.4.1. – Ian
, тогда это не сработает, извините .. – mgaido
Ни в коем случае не в нем до 1.6.0? – Ian