Эффективные способы загрузки больших данных Наборы

Я читаю белую бумагу на MapReduce от Google. И я хочу знать, как эффективно передавать данные GB в алгоритм MapReduce. В статье приведены статистические данные для обработки ТБ данных за считанные секунды. В этом документе говорится, что для эффективной работы они уменьшают сетевые вызовы и пытаются сделать локальные записи на локальных дисках. Только функция редуктора выполняет удаленные вызовы и записывает выходной файл olocal. Теперь, когда мы загружаем ГБ данных в памяти, чтобы передать его функции «Карта», приложение загрузчика данных наверняка исчезнет из памяти.Эффективные способы загрузки больших данных Наборы

Итак, мой вопрос заключается в том, какие методы следует использовать для эффективной загрузки данных и перехода к приложениям планировщика для планирования M и R и для расчета количества M штук и фрагментов R.

Я бы, скорее всего, прочитал некоторые данные из базы данных Oracle и обновил их обратно в некоторых других таблицах.

URL на белую бумагу http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en//archive/mapreduce-osdi04.pdf

источник

2013-09-09 learner

почему бы вы загрузить все в памяти? –

В случае Google, данные, вероятно, хранятся в GFS, которая является распределенной файловой системой, а фаза карты работают на узлах, которые удваиваются как узлы хранения GFS. Таким образом, система в основном использует данные, которые уже находятся на локальных дисках, поэтому основная часть данных не должна перемещаться по сети.

Там есть документ о ГФС тоже: http://research.google.com/archive/gfs.html

источник

2013-09-09 07:30:32 Joni

@ Joni: Я не думаю, что Google будет хранить данные всего мира на каждом системном локальном диске. Они могут извлекать данные из места размещения на локальном диске члена кластера для уменьшения карты, чтобы работать над ним. Если это так, то как извлекаются данные? – learner

Вы прочитали документ GFS? Данные хранятся в кусках, копии каждого блока хранятся на трех разных узлах для обеспечения высокой доступности. Восстановление петабайт данных из третичного хранилища для уменьшения карты, вероятно, приводит к высокой задержке, поэтому я не думаю, что они это делают. – Joni

Я прочитал HDFS для Hadoop, который является почти копией GFS. Но я тоже буду читать GFS, а затем буду обсуждать с u Если мне это нужно. – learner

Эффективные способы загрузки больших данных Наборы

ответ

Смежные вопросы