Я пытаюсь использовать искровой поток apache. У меня есть один источник данных, csv-файл из HDFS.Как разбить Spark DStream на несколько подпотоков
планирование I`m сделать ниже вещи с искровым Stream:
- Читать CSV периодически (5мин) файл с textFileStream
- расколоть DStream в нескольких суб-dstream.
Ниже приведен простой пример о требовании.
В этом формате мы получили CSV-файл.
NAME, SCHOOL, GENDER, AGE, SUBJECT, SCORE
USR1, SCH001, male , 28 , MATH , 100
USR2, SCH002, male , 20 , MATH , 99
USR1, SCH001, male , 28 , ENGLISH, 80
USR8, SCHOO8, female, 20 , PHY , 100
Каждый 5 мин, прочитать файл, как это, то я хочу, чтобы разделить этот вход DStream на несколько subDStream. Каждый пользователь будет одним потоком. Является ли это возможным?
на основе того, что вы хотели бы разбить на них? Хотя, похоже на RDD, я не думаю, что это возможно –
@MateuszDymczyk Множество фильтров должно быть достаточно, не так ли? – zero323
@ zero323 да, извините за то, что вы не точны там, несколько фильтров должны делать трюк, делать это за один раз параллельно не поддерживается, правда, правильно? –