Apache spark утверждает, что он сохранит линии вместо самих RDD, чтобы он мог перекомпрометировать в случае сбоя. Мне интересно, как он хранит линии? Например, RDD может быть создан из группы функций, предоставляемых пользователем, и сохраняет ли он «исходный код этих функций, предоставляемых пользователем»?Как работает Apache Spark?
1
A
ответ
4
Упрощение вещей немного RDDs
- это рекурсивные структуры данных, которые описывают линии. Каждый RDD
имеет a set of dependencies и составляет computed
в определенном контексте. Функции, передаваемые действиям и преобразованиям Spark, являются первоклассными объектами, могут быть сохранены, назначены, переданы и захвачены как часть закрытия, и нет оснований (не говоря уже о средствах) для хранения исходного кода.
RDD принадлежат к Driver
и не эквивалентны данным. Когда доступ к данным у рабочих, RDD давно прошли, и единственное, что имеет значение, - это задание.
Смежные вопросы
- 1. Apache Spark Kinesis Образец не работает
- 2. Apache-Spark: метод в foreach не работает
- 3. Как использовать Apache Spark с Apache Nutch
- 4. Apache Spark streaming простое приложение не работает
- 5. apache spark master ui не работает
- 6. Apache Spark 1.6.0, callUDF не работает
- 7. Apache Spark и gRPC
- 8. Apache Spark vs Apache Ignite
- 9. Apache Фильтрующие элементы Spark
- 10. Apache Spark: как создать счетчик
- 11. Как обновить версию Apache Spark
- 12. как продлить apache spark api?
- 13. Apache Cassandra and Spark
- 14. Apache Spark Native Libraries
- 15. Apache Spark: java.lang.NoSuchMethodError .rddToPairRDDFunctions
- 16. Apache Spark: Импортные банки
- 17. Авторизация в Apache Spark
- 18. Elasticsearch + Apache Spark performance
- 19. Apache Spark: spark-submit дает java.lang.IncompatibleClassChangeError exception
- 20. Защита Apache Spark
- 21. Apache Spark Rdd persist
- 22. Обновить стратегию Apache Spark
- 23. psutil в Apache Spark
- 24. Apache spark- bigdata
- 25. Обработка исключений Apache Spark
- 26. Talend и Apache Spark?
- 27. apache spark implementation
- 28. Apache spark on eclipse
- 29. Apache Spark и node.js
- 30. Характеристики Bluemix Apache Spark
Это хороший ответ, но можете ли вы представить простой пример того, как эти блокировки хранятся и передаются? Я использую слово, хранящееся здесь, потому что, когда я читаю искровую бумагу, он говорит, что это где-то хранится, так что, если узел терпит неудачу, он будет перекомпилировать себя после извлечения. – user1870400
Ну, AFAIK нет ничего особенного для Spark здесь. Это стандартные языковые инструменты. Если вы ищете что-то легкое для понимания, взгляните на python ['globals' и' locals'] (http://stackoverflow.com/q/7969949/1560062), добавьте надежный механизм сериализации (см. «Облако_пикле» Spark) и вы готовы идти. – zero323
ok Cloud_pickle - это более или менее то, что я ищу, но когда я читаю код по приведенной ниже ссылке, похоже, что он действительно хранит байт-код функций, и поскольку в искровом режиме вы можете указать уровень хранения и сказать, что я указываю хранилище уровень как диск Я предполагаю, что байт-код будет сохранен на диске, который может быть дополнительно использован для повторного вычисления RDD позднее. Вы до сих пор согласны? https://github.com/apache/spark/blob/master/python/pyspark/cloudpickle.py#L282 – user1870400