2016-09-29 2 views
-1

Я ищу фрагмент кода, чтобы найти лучшую практику для чтения нескольких вложенных файлов JSON в подкаталогах в hadoop с помощью scala.Как читать несколько файлов Json в подкаталогах с помощью Scala

Если мы сможем записать в один файл в каком-либо другом каталоге в hadoop вышеупомянутые файлы JSON, это будет еще лучше.

Любая помощь приветствуется.

Благодаря PG

+0

: вы используете Спарк с Scala API или как вы используете Scala в Hadoop? – Shankar

+0

Спасибо за ваш ответ. Я использую искру с scala API. – user3054752

+0

Вы можете использовать 'sqlContext.read.json (« путь к json-файлу »)' для чтения json-файла, он возвращает 'DataFrame'. Но вы сказали, что вложенные каталоги, есть ли в json-файлах разные схемы? – Shankar

ответ

0

Вы можете использовать sqlContext.read.json("input file path") читать JSon файл, он возвращает DataFrame.

Как только вы получили DataFrame, просто используйте df.write.json («путь выходного файла») для записи DF в виде json-файла.

Пример кода: если вы используете Спарк 2,0

val spark = SparkSession 
     .builder() 
     .appName("Spark SQL JSON example") 
     .getOrCreate() 

     val df = spark.read.json("input/file/path") 

     df.write.json("output/file/path") 
Смежные вопросы