Я смущен тем, что RDD просматривается в Spark.Сфера действия `persist` или` cache` Spark Spark
Согласно this thread
РД кэшируется ли или не является частью изменчивого состояния объекта RDD. Если вы вызовете rdd.cache, он будет отмечен для кеширования с этого момента. Неважно, с какой областью вы обращаетесь.
Так что, если я определил функцию с новым РДА создается внутри, например, (питон код)
# there is an rdd called "otherRdd" outside the function
def myFun(args):
...
newRdd = otherRdd.map(some_function)
newRdd.persist()
...
Будет ли newRdd
жизнь в глобальном пространстве имен? или он виден только внутри среды myFun
?
Если она видна только внутри среды myFun
, после myFun
выполнения отделки, будет Спарк автоматически unpersist
newRdd
?