Фрагмент данных в Spark может быть создан из внешнего файла. Есть ли способ использовать несколько файлов для создания одного объекта?Создание единственного Spark Dataframe из нескольких источников?
EX: Если я скажу файлы csv или файлы паркета, которые записывают одни и те же данные (скажем, подсчеты предмета, купленного в день недели). Есть ли способ инициализировать единый файл данных из каждого дневного файла, чтобы получить единый фреймворк данных, который представляет данные о покупках за неделю?
Если я предоставил имя папки с одним типом файла, сможет ли Spark принимать все данные в указанной папке? – knowads
Да, если вы все можете разобрать их одинаково, используя следующий спецификатор пути: ''/my/own/path/* "' – YoYo