У меня есть список json-файлов, которые я бы хотел загрузить параллельно.Чтение нескольких json-файлов из Spark
Я не могу использовать файлы read.json("*")
, потому что файлы не находятся в одной папке, и я не могу создать определенный шаблон.
Я пробовал sc.parallelize(fileList).select(hiveContext.read.json)
, но контекст hive, как и ожидалось, не существует в исполнителе.
Любые идеи?
да, но это работает только в случае, если все файлы находятся в одной папке. Если у нас есть несколько файлов в разных каталогах, единственный способ их прочитать параллельно - это только текстовый файл –