2016-06-16 6 views
1

Можно ли загружать несколько файлов в виде одного кадра данных? Обычно, если у меня есть один файл для загрузки, я буду называть, например:Загрузите несколько файлов в dataframe

file1 = "https://stackoverflow.com/a/b/c/folder/file1.csv" 
dc = sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load(file1) 

Но я хочу, чтобы загрузить все файлы в папке /a/b/c/folder/*.csv.

+0

Что произойдет, если вы попробуете 'dc = sqlContext.read.format ('com.databricks.spark.csv'). header = 'false', inferschema = 'true'). load ("a/b/c/folder/*. csv") 'Это ошибка? Это работает? –

+0

Я получаю ошибку "java.lang.ArrayIndexOutOfBoundsException: 18002" – hdy

ответ

0

Я думаю, sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load(folder) работает. Раньше я получал ошибку, потому что я готов сжатые файлы, и они имеют большой размер по сравнению с памятью.