Задача:
Большое количество файлов. Каждый файл имеет размер 10 МБ и состоит из записей в формате json, gzipped.Итерации через S3 файлы в Spark
Мой снипп загружает все данные в память. Нет необходимости делать это. Мне просто нужно несколько часов данных в памяти за раз. Мне нужно скользящее окно.
Можно ли применить идею «окна» от искрообразования к файлам и как мне это сделать?
Я использую Python
location = "s3://bucketname/xxxx/2016/10/1[1-2]/*/file_prefix*.gz"
rdd = sc.textFile(location)
Если вы знаете, какие данные необходимо загрузить, вы можете использовать 'filter', так как все преобразования в искры ленивы, он загружает только отфильтрованные данные. – Shankar
ОК, что действительно полезно. Тем не менее, я думаю, что мне все равно придется применить какое-то окно. У меня довольно много данных. Это примерно 300 ГБ. – hibernado
Spark streaming поддерживает функцию раздвижного окна, проверьте это http://spark.apache.org/docs/latest/streaming-programming-guide.html#window-operations – Shankar