1

Фрагмент данных в Spark может быть создан из внешнего файла. Есть ли способ использовать несколько файлов для создания одного объекта?Создание единственного Spark Dataframe из нескольких источников?

EX: Если я скажу файлы csv или файлы паркета, которые записывают одни и те же данные (скажем, подсчеты предмета, купленного в день недели). Есть ли способ инициализировать единый файл данных из каждого дневного файла, чтобы получить единый фреймворк данных, который представляет данные о покупках за неделю?

ответ

2

Способ искры считывания ввода из файла зависит от базового API Hadoop. Это довольно часто означает, что они расширяют одно и то же использование, включая возможность обработки сжатых файлов или нескольких файлов.

В вашем случае вы просто предоставите ввод файла с помощью подстановочного знака или отдельно разделите его запятой. См. How to read multiple text files into a single RDD?

+0

Если я предоставил имя папки с одним типом файла, сможет ли Spark принимать все данные в указанной папке? – knowads

+1

Да, если вы все можете разобрать их одинаково, используя следующий спецификатор пути: ''/my/own/path/* "' – YoYo

Смежные вопросы