2016-10-17 2 views
-1

Ниже приводится РДД:Как получить ключ выходного значения из РДА в pyspark

[(8, [u'darkness']), (2, [u'in', u'of', u'of', u'of']), 
(4, [u'book', u'form', u'void', u'upon', u'face', u'deep', u'upon', u'face'])] 

Как я печатать ключи и длину значения для указанных выше.

Выход для выше должно быть: (ключ, нет слов в списке)

(8,1) (2,4) (4,8)

ответ

0

You может использовать функцию map для создания кортежа ключа и количества слов в списке:

data = sc.parallelize([(8, [u'darkness']), (2, [u'in', u'of', u'of', u'of']), (4, [u'book', u'form', u'void', u'upon', u'face', u'deep', u'upon', u'face'])]) 

data.map(lambda x:tuple([x[0],len(x[1])])).collect() 
Смежные вопросы