Я планирую систему hdfs, которая будет размещать файлы изображений (от нескольких Мбайт до 200 МБ) для цифрового хранилища (Fedora Commons). Я нашел от another stackoverflow post, что CombineFileInputFormat может использоваться для создания входных разделов, состоящих из нескольких входных файлов. Можно ли использовать этот подход для изображений или pdf? Внутри задачи карты я хочу полностью обрабатывать отдельные файлы, т. Е. Обрабатывать каждое изображение в разделенном виде отдельно.Использование CombineFileInputFormat для изображений (или BLOB)?
Я знаю о проблеме с маленькими файлами, и это не будет проблемой для моего дела.
Я хочу использовать CombineFileInputFormat для того, чтобы избежать проблем с настройкой/очисткой задачи Mapper и сохранением данных.
Извините, если я не был чист. Я хочу использовать 'CombineFileInputFormat' для подачи каждого картографа с несколькими изображениями, поэтому ожидается разнесение ввода с более чем 1 изображением. Будет ли возможно найти границы отдельных изображений внутри картографа? Кроме того, возможно ли, что 'CombineFileInputFormat' разделит одно изображение на два входных разделения? – Mohamed
Причина, по которой я хотел избежать HIPI, заключается в том, что изображения управляются внешним сервером (Fedora Commons), который использует HDFS в качестве хранилища файлов. Поэтому мне пришлось бы создавать копии исходных изображений в архиве HIPI. Это увеличит требования к хранению кластера. Кроме того, мне пришлось бы перестроить архив HIPI, когда изображения будут добавлены/удалены. Я также рассмотрел другое решение по использованию списка URL-адресов в качестве входных данных, но преимущество в отношении местоположения данных будет потеряно. – Mohamed