2015-09-01 3 views
0

Есть 100 файлов изображений с различными цветами .Я хочу, чтобы получить уникальный образ на основе цветаКак обрабатывать файлы изображений с помощью PIG

+1

прибудет MD5SUM изображений и удалить duplciates –

+0

обратитесь к этой статье: http://www.hadoopsphere.com/2013/02/data-de-duplication-tactics-with-hdfs.html –

ответ

0

Там нет встроенного в Hadoop/Свиньи API для обработки данных изображения.

Для обработки данных изображения с помощью Свиньи/MapReduce, выполните следующие действия:

  1. конвертировать все изображения в Sequence Файл/Files

    Key    Value 
    Image_file_id Image Content

  2. нагрузки это файл в HDFS.

  3. Используйте любую стороннюю библиотеку для обнаружения как «Хаар Каскады» в UDF на рис или вызвать библиотеку Java в MapReduce программы.