Amazon Elastic Map Reduce Доступ к данным непосредственно от Amazon S3. Он не копирует данные в HDFS. (Он может использовать некоторое местное хранилище temp, я не уверен на 100%.)
Однако, конечно, не будет вызывать коэффициент репликации HDFS, поскольку данные не хранятся в HDFS. Например, узлы задач, которые не имеют HDFS, могут по-прежнему получать доступ к данным на S3.
нет Передача данных для перемещения данных между Amazon S3 и Amazon EMR в том же регионе, но она будет рассчитывать на счет S3 Request.
Amazon Elastic Map Reduce, безусловно, может использоваться для данных, не находящихся в Amazon S3. Это просто вопрос загрузки данных из вашего источника данных, например, с помощью scp
для копирования данных в HDFS. Обратите внимание, что содержимое HDFS исчезнет, когда ваш кластер завершится. Вот почему S3 является хорошим местом для хранения данных для EMR - он является постоянным, и нет ограничений на объем данных, которые хранятся.
Спасибо, что ответили Джону! Шаг карты mapreduce требует одного блока данных. Как он показывает, где начинается и заканчивается блок? Кроме того, в этом случае данные собираются вычислять, а не наоборот - вычисление происходит с данными, что является основным принципом mapreduce. –
@TarunKumar - Не уверен, это глубокий материал Hadoop, не обязательно специфичный для EMR. –