2016-04-20 5 views
0

Мне нужно прочитать кучу файлов JSON из каталога HDFS. После завершения обработки Spark необходимо поместить файлы в другой каталог. Тем временем, может быть добавлено больше файлов, поэтому мне нужен список файлов, которые были прочитаны (и обработаны) Spark, так как я не хочу удалять те, которые были , а не, но обработаны.Spark read.json с именами файлов

Функция read.json преобразует файлы непосредственно в DataFrames, что очень круто, но это не дает мне имен файлов, таких как wholeTextFiles. Есть ли способ читать данные JSON, а также получать имена файлов? Существует ли преобразование из RDD (с данными JSON) в DataFrame?

ответ

0

С версии1.6 вы можете использовать input_file_name(), чтобы получить имя файла, в котором находится строка. Таким образом, получение имен всех файлов может быть выполнено с помощью отдельного на нем.

+0

Я забыл добавить: я на 1.4.1. – Ian

+0

, тогда это не сработает, извините .. – mgaido

+0

Ни в коем случае не в нем до 1.6.0? – Ian

Смежные вопросы