Я хочу понять, что делать в этом случае.
Например, у меня есть 1 ТБ текстовых данных, и предположим, что 300 ГБ это слово «Привет».
После каждой операции с картой у меня будет набор пар ключ-значение < «Hello», 1>.Что делать, если вход редуктора слишком велик в Hadoop MapReduce
Но, как я уже сказал, это огромная коллекция, 300 ГБ, и, насколько я понимаю, редуктор получает все это и будет раздавлен.
Какое решение для этого?
Предположим, что объединитель мне не поможет (пример WordCount просто для простоты), и данные все равно будут слишком большими для редуктора.
Что делать, если у меня на диске нет места на 300 ГБ? Будет ли он разделен? – member555
Чтобы справиться с этой ситуацией, существует свойство mappeduce.cluster.local.dir, которое может быть установлено в файле mapred-site.xml. Он может содержать список разделенных запятыми путей к каталогам, которые могут указывать на каталоги на разных устройствах для распространения дискового ввода-вывода. Если не установлено, его значением по умолчанию является $ {hadoop.tmp.dir}/mapred/local. Примечание: свойство hasoop.tmp.dir задано в файле core-site.xml. Его значением по умолчанию для большинства дистрибутивов Linux является «/ tmp». Обращайтесь к нижеуказанному файлу для справки: https://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml –