Я запускаю Spark 1.3.0 и хочу прочитать несколько паркетных файлов на основе соответствия шаблонов. файлы паркета в основном являются базовыми файлами Hive DB, и я хочу читать только некоторые файлы (в разных папках). структура папкиПрочтите файлы паркета в Spark с совпадением рисунков
hdfs://myhost:8020/user/hive/warehouse/db/blogs/some/meta/files/
hdfs://myhost:8020/user/hive/warehouse/db/blogs/yymmdd=20160101/01/file1.parq
hdfs://myhost:8020/user/hive/warehouse/db/blogs/yymmdd=20160101/02/file2.parq
hdfs://myhost:8020/user/hive/warehouse/db/blogs/yymmdd=20160103/01/file3.parq
Что-то вроде
val v1 = sqlContext.parquetFile("hdfs://myhost:8020/user/hive/warehouse/db/blogs/yymmdd={[0-9]*}")
Я хочу, чтобы игнорировать мета-файлы и загружать только паркетные файлы внутри папки даты. Это возможно?