Spark read.json с именами файлов

Мне нужно прочитать кучу файлов JSON из каталога HDFS. После завершения обработки Spark необходимо поместить файлы в другой каталог. Тем временем, может быть добавлено больше файлов, поэтому мне нужен список файлов, которые были прочитаны (и обработаны) Spark, так как я не хочу удалять те, которые были , а не, но обработаны.Spark read.json с именами файлов

Функция read.json преобразует файлы непосредственно в DataFrames, что очень круто, но это не дает мне имен файлов, таких как wholeTextFiles. Есть ли способ читать данные JSON, а также получать имена файлов? Существует ли преобразование из RDD (с данными JSON) в DataFrame?

источник

2016-04-20 Ian

С версии1.6 вы можете использовать input_file_name(), чтобы получить имя файла, в котором находится строка. Таким образом, получение имен всех файлов может быть выполнено с помощью отдельного на нем.

источник

2016-04-20 09:21:45 mgaido

Я забыл добавить: я на 1.4.1. – Ian

, тогда это не сработает, извините .. – mgaido

Ни в коем случае не в нем до 1.6.0? – Ian

Spark read.json с именами файлов

ответ

Смежные вопросы