Я хочу, чтобы иметь возможность читать/записывать изображения в файловой системе hdfs и использовать местоположение hdfs.Использование pyspark, чтение/запись 2D-изображений в файловой системе hadoop
У меня есть коллекция изображений, где каждое изображение состоит из
- 2D массивов uint16
- основной дополнительной информации, хранящихся в файл XML.
Я хочу создать архив по файловой системе hdfs и использовать искру для анализа архива. Прямо сейчас я изо всех сил пытаюсь сохранить данные по файловой системе hdfs, чтобы иметь возможность в полной мере использовать структуру spark + hdfs.
Насколько я понимаю, лучшим способом было бы создать оболочку sequenceFile. У меня есть два вопроса:
- Создает ли оболочку sequenceFile лучший способ?
- Есть ли у кого-нибудь указатель на примеры, которые я мог бы использовать для начала? Я не должен быть первым, кто должен читать что-то отличное от текстового файла на hdfs через искру!
Спасибо - это интересно. Просто любопытно узнать, использовали ли вы искру для анализа файлов TIFF? Я работаю с большими (~ 800 МБ) tiff-файлами и хотел бы создать pyspark RDD из массива numpy, но не уверен, как это сделать. – user3591836
Из моих экспериментов намного легче, если я правильно подготовлю данные: я преобразую файлы изображений в файлы «avro», которые содержат перекрывающиеся фрагменты изображений. Мне приходится иметь дело с очень большими изображениями (400 Мпикселей), и это лучшее решение для меня. – MathiasOrtner
отлично, спасибо за подсказку! – user3591836