Spark - Spark RDD - логическая коллекция инструкций?

Быстрая прогулка по довольно интересной Apache Спарк архитектуры руководство для начинающих, как показано в этом tutorial, я наткнулся на несколько запросов, касающихся обработки RDD в искру, как ниже,Spark - Spark RDD - логическая коллекция инструкций?

В моем понимании РДУ является логическим сбор инструкций, которые будут выполняться на физическом наборе данных (ленивое исполнение). Правильно ли я понимаю? или это физический набор данных в памяти.
Пусть файл объемом 20 ГБ хранится в hdf и тот же обрабатывается при помощи искрового приложения. Этот файл будет распространен через кластер hadoop для хранения. Итак, если Datanode A содержит 3 блока общего размера 192 МБ, эти 3 блока будут выполняться в одном и том же исполнителе dataNode A или есть ли какой-либо блок для концепции исполнителя?
Является ли программа-исполнитель ответственной за загрузку данных из блоков hdfs?

Любая помощь в понимании вышеуказанных концепций высоко ценится. Благодарю.

источник

2016-08-18 Krishna Reddy

1) Вид обоих: В rdd содержится график его предков, которые являются результатом rdd-преобразований. Он не будет оцениваться до тех пор, пока действие не потребует его (например, запись на хранение или вычисление некоторого конечного значения). Тем не менее, rdd может сохраняться на разных уровнях хранения, таких как память, память и диск и т. Д. Когда такой rdd получает оценку, он также сохраняется (обратите внимание, что сохранение также является ленивым). Также существует разница между логическим уровнем и фактическим уровнем выполнения. Логические преобразования (узкие) могут выполняться вместе, делая их неотделимыми на уровне выполнения.

2) Существует логика, которая назначает блоки исполнителям. Близость данных является важным соображением, но иногда, если машина занята, другая машина со свободными слотами может занимать несколько блоков.

3) Не уверен, что вы имеете в виду, но есть драйвер, который (в зависимости от развертывания) назначает и контролирует выполнение задач исполнителями. Когда задача назначается ему, исполнитель собирает нужные ему данные.

источник

2016-08-18 07:22:24

Спасибо, Harel. Я редактировал третий вопрос. Но, я думаю, вы ответили так же, как и в своем ответе, поскольку исполнитель собирает нужные ему данные. :) Правильно ли я понимаю? –

Да, пожалуйста, примите ответ, если это вам помогло! –

Спасибо, Harel. Это помогло мне .. !! –

Spark - Spark RDD - логическая коллекция инструкций?

ответ

Смежные вопросы