Я хочу подсчитать отличное значение некоторых типов идентификаторов, представленных как RDD.Spark Streaming - DStream не имеет отчетливых()
В случае без потокового устройства это довольно просто. Скажем, IDs
- это идентификатор удостоверений личности, считываемых из плоского файла.
print ("number of unique IDs %d" % (IDs.distinct().count()))
Но я не могу сделать то же самое в потоковом футляре. Скажем, у нас есть streamIDs
- DStream
идентификаторов, считанных из сети.
print ("number of unique IDs from stream %d" % (streamIDs.distinct().count()))
дает мне эту ошибку
AttributeError: 'TransformedDStream' object has no attribute 'distinct'
Что я делаю неправильно? Как распечатать количество отдельных идентификаторов, появившихся во время этой партии?