Я занимаюсь разработкой программы через Hadoop, которая является относительно новой для меня, поэтому я был бы признателен за совет по созданию концепции того, что я планирую делать.Hadoop: группировка файлов для сопоставления
У меня есть большой упорядоченный набор из 1 ... n изображений. Изображения логически разделены на несколько групп, каждая из которых может обрабатываться независимо. Однако внутри одной группы все изображения зависят и поэтому должны обрабатываться одной задачей карты. Сами изображения малы, поэтому загрузка их в память одновременно не должна быть проблемой.
Я думал об упаковке каждой группы в отдельный файл SequenceFile, но, похоже, нет способа прочитать SequenceFile из InputStream ... Или, может быть, есть способ как-то выделить M разных узлов для одного MapReduce чтобы каждый узел считывал свой SeqFile непосредственно из HDFS?