Я пишу программу Java MapReduce в Hadoop, и каждый редуктор должен иметь доступ к статическому XML-файлу (который содержит некоторую бизнес-логику о применении правил к спискам значений). Я решил сохранить этот файл в распределенном кеше, а затем использовать API распределенного кеша для его доступа (сериализовать его) в каждом редукторе. Я еще не реализовал это, но API выглядит просто, когда дело доходит до использования этой функции в HDFS/распределенном режиме. Однако можно ли использовать его в псевдораспределенном автономном режиме для моих целей тестирования? Как это сработает?Могу ли я использовать распределенный кэш Hadoop в автономном режиме?
Кроме того, это плохая идея сериализации файла в каждом редукторе? Я открыт для предложений по другим способам распространения «глобальных статических данных» на редукторы.
Спасибо!
Посмотрите это - http://stackoverflow.com/questions/3210222/distributed-cache. Да Распределенный кеш предназначен для того, чтобы сделать доступными некоторые данные для всех задач. –