При использовании sqlContext.load
для нескольких текстовых файлов, как вы держите Spark от разбиения каждого файла на несколько разделов? Это не проблема с файлами gzip'd, я бы хотел, чтобы он работал одинаково для обычных текстовых файлов.Как сохранить Spark от разделения текстовых файлов
sc.wholeTextFile
будет работать, кроме чтения всего 100 МБ файла, так или иначе требующего 3G памяти, поэтому я предпочел бы использовать какую-то потоковое вещание, поскольку нам иногда нужно было бы читать гораздо большие файлы.
StreamingContext имеет FileStream для создания DStream из файлов. Это может помочь – aasthetic