8
У меня есть RDD, который я создаю, загружая текстовый файл и предварительно обрабатывая его. Я не хочу собирать его и сохранять на диске или в памяти (целые данные), но скорее хочу передать его какой-либо другой функции в python, которая потребляет данные один за другим, является формой итерации.Преобразование RDD в итерируемый: PySpark?
Как это возможно?
data = sc.textFile('file.txt').map(lambda x: some_func(x))
an_iterable = data. ## what should I do here to make it give me one element at a time?
def model1(an_iterable):
for i in an_iterable:
do_that(i)
model(an_iterable)