2014-12-01 2 views
0

Я планирую запустить задание mapreduce по данным, хранящимся на S3. Размер данных составляет около 1PB. Будет ли EMR копировать все данные 1 ТБ на порожденные виртуальные машины с коэффициентом репликации 3 (если мой rf = 3)? Если да, взимает ли плата amazon за копирование данных из S3 в кластер MapReduce?Использование Elastic MapReduce на s3

Кроме того, можно ли использовать EMR для данных, не находящихся в s3?

ответ

1

Amazon Elastic Map Reduce Доступ к данным непосредственно от Amazon S3. Он не копирует данные в HDFS. (Он может использовать некоторое местное хранилище temp, я не уверен на 100%.)

Однако, конечно, не будет вызывать коэффициент репликации HDFS, поскольку данные не хранятся в HDFS. Например, узлы задач, которые не имеют HDFS, могут по-прежнему получать доступ к данным на S3.

нет Передача данных для перемещения данных между Amazon S3 и Amazon EMR в том же регионе, но она будет рассчитывать на счет S3 Request.

Amazon Elastic Map Reduce, безусловно, может использоваться для данных, не находящихся в Amazon S3. Это просто вопрос загрузки данных из вашего источника данных, например, с помощью scp для копирования данных в HDFS. Обратите внимание, что содержимое HDFS исчезнет, ​​когда ваш кластер завершится. Вот почему S3 является хорошим местом для хранения данных для EMR - он является постоянным, и нет ограничений на объем данных, которые хранятся.

+0

Спасибо, что ответили Джону! Шаг карты mapreduce требует одного блока данных. Как он показывает, где начинается и заканчивается блок? Кроме того, в этом случае данные собираются вычислять, а не наоборот - вычисление происходит с данными, что является основным принципом mapreduce. –

+0

@TarunKumar - Не уверен, это глубокий материал Hadoop, не обязательно специфичный для EMR. –

Смежные вопросы