2016-08-28 2 views
1

Я создал RDD нравится следующим образом:Спарк Checkpoint

scala> val x = List(1,2,3,4) 
x: List[Int] = List(1, 2, 3, 4) 

scala> val y = sc.parallelize(ls,2) 
y: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[10] at parallelize at <console>:29 

scala> val z = y.map(c => c*2) 
z: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[11] at map at <console>:31 

scala> sc.setCheckpointDir("/tmp/chk") 

scala> z.checkpoint 

scala> z.count 
res32: Long = 4 

Мой вопрос заключается в том, чтобы прочитать данные из контрольной точки каталога

+1

Почему вы хотите это сделать? –

+0

Я читал во многих местах, что данные с чек-точками могут быть прочитаны, когда приложение завершено. Так что просто созданный выше код и чек-указатель «z». его создал каталог «chk», а также второй каталог с большим именем после z.count. После этого большого каталога он создал каталог rdd-2 внутри, где был файл part-00000. Поэтому после этого я закрыл консоль Scala и снова открыл ее. Но я не смог прочитать RDD в части-0000 данных. Поэтому я хочу знать, как читать RDD из файла part-00000. Я просто изучаю – sraj

ответ

-1

Как @Yuval Itzchakov указывает, мы действительно не должны играть с контрольно-пропускных пунктах , Контрольные точки используются Spark для достижения отказоустойчивости. Он широко используется в потоковых заданиях для состояния контрольной точки, и когда неудачник не работает, можно создать новый, и данные могут быть загружены с контрольных точек.

Контрольные точки также имеют проблемы, когда вы меняете свой код и хотите продолжить работу, когда был остановлен последний запуск задания, поскольку он хранит код вместе с состоянием.

Вы на самом деле смотрите на persist или cache RDD?

+0

. Я читал во многих местах, что контрольные данные могут быть прочитаны, когда приложение завершено. Так что просто созданный выше код и чек-указатель «z». его создал каталог «chk», а также второй каталог с большим именем после z.count. После этого большого каталога он создал каталог rdd-2 внутри, где был файл part-00000. Поэтому после этого я закрыл консоль Scala и снова открыл ее. Но я не смог прочитать RDD в части-0000 данных. Поэтому я хочу знать, как читать RDD из файла part-00000. Я просто исследую. Как и везде, где упоминается, что мы можем читатьRDD после завершения применения. – sraj

+0

Привет, ramkumar, так что это возможно для чтения данных из местоположения chekpoint – sraj

Смежные вопросы