Я читаю белую бумагу на MapReduce от Google. И я хочу знать, как эффективно передавать данные GB в алгоритм MapReduce. В статье приведены статистические данные для обработки ТБ данных за считанные секунды. В этом документе говорится, что для эффективной работы они уменьшают сетевые вызовы и пытаются сделать локальные записи на локальных дисках. Только функция редуктора выполняет удаленные вызовы и записывает выходной файл olocal. Теперь, когда мы загружаем ГБ данных в памяти, чтобы передать его функции «Карта», приложение загрузчика данных наверняка исчезнет из памяти.Эффективные способы загрузки больших данных Наборы
Итак, мой вопрос заключается в том, какие методы следует использовать для эффективной загрузки данных и перехода к приложениям планировщика для планирования M и R и для расчета количества M штук и фрагментов R.
Я бы, скорее всего, прочитал некоторые данные из базы данных Oracle и обновил их обратно в некоторых других таблицах.
URL на белую бумагу http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en//archive/mapreduce-osdi04.pdf
почему бы вы загрузить все в памяти? –