2015-09-24 2 views
8

У меня есть RDD, который я создаю, загружая текстовый файл и предварительно обрабатывая его. Я не хочу собирать его и сохранять на диске или в памяти (целые данные), но скорее хочу передать его какой-либо другой функции в python, которая потребляет данные один за другим, является формой итерации.Преобразование RDD в итерируемый: PySpark?

Как это возможно?

data = sc.textFile('file.txt').map(lambda x: some_func(x)) 

an_iterable = data. ## what should I do here to make it give me one element at a time? 
def model1(an_iterable): 
for i in an_iterable: 
    do_that(i) 

model(an_iterable) 

ответ

Смежные вопросы