Быстрая прогулка по довольно интересной Apache Спарк архитектуры руководство для начинающих, как показано в этом tutorial, я наткнулся на несколько запросов, касающихся обработки RDD в искру, как ниже,Spark - Spark RDD - логическая коллекция инструкций?
- В моем понимании РДУ является логическим сбор инструкций, которые будут выполняться на физическом наборе данных (ленивое исполнение). Правильно ли я понимаю? или это физический набор данных в памяти.
Пусть файл объемом 20 ГБ хранится в hdf и тот же обрабатывается при помощи искрового приложения. Этот файл будет распространен через кластер hadoop для хранения. Итак, если Datanode A содержит 3 блока общего размера 192 МБ, эти 3 блока будут выполняться в одном и том же исполнителе dataNode A или есть ли какой-либо блок для концепции исполнителя?
Является ли программа-исполнитель ответственной за загрузку данных из блоков hdfs?
Любая помощь в понимании вышеуказанных концепций высоко ценится. Благодарю.
Спасибо, Harel. Я редактировал третий вопрос. Но, я думаю, вы ответили так же, как и в своем ответе, поскольку исполнитель собирает нужные ему данные. :) Правильно ли я понимаю? –
Да, пожалуйста, примите ответ, если это вам помогло! –
Спасибо, Harel. Это помогло мне .. !! –