2008-12-10 4 views
1

Это немного растягивается, но у меня есть интересное (для меня) программирование (ошибка ... скриптинг? Алгоритмическая? Организационная?) Проблема. (Я отмечаю это в Ruby, из-за моего предпочтения Ruby для скриптов.)Организация фотографий (или любых файлов)

Представьте, что у вас есть 100 гигабайт изображений, плавающих на нескольких дисках. Вероятно, в общей сложности 25 гигабайт уникальных снимков. Остальные - либо дубликаты (с тем же именем), дубликаты (с другим именем), либо меньшие версии изображения (экспортированные для электронной почты). Конечно, кроме того, что они находятся на нескольких дисках, они также находятся в разных структурах папок. Например, img_0123.jpg может существовать (в мире Windows) как c: \ users \ username \ pics \ 2008 \ img_0123.jpg, c: \ pics \ 2008 \ img_0123.jpg, c: \ pics \ export \ img_0123- email.jpg и d: \ pics \ europe_2008 \ venice \ bungy_jumping_off_st_marks.jpg.

Назад в тот день, когда нам приходилось класть все в папки и переименовывать их довольно маленькие имена (например, выше). Сегодня поиск и пометка заботятся обо всем этом и являются излишними (и затрудняют организацию).

В прошлом я попытался переместить все на один диск, написал скрипт ruby ​​для сканирования дубликатов (я не доверяю этим программам dupfinder - я побежал один, и он начал удалять все!), И попытался реорганизовать их. Однако через несколько дней я отказался (на этапе организации и удаления вручную).

Я собираюсь начать новую мысль. Сначала скопируйте все изображения со всех моих дисков на новый диск, в одну папку. Все, что имеет дублирующее имя файла, нужно будет вручную проверить. Затем запустите Picasa и вручную сканируйте файлы и удалите дубликаты (используя хороший ol 'noggen).

Тем не менее, я очень недоволен тем, что я не мог легко решить эту проблему программно, и мне интересно услышать некоторые другие решения, как программные, так и другие (возможно, писать код - не лучшее решение, вздох!).

ответ

5

Мне нравятся мои фотографии для сортировки по дате, поэтому я написал отличный шрифт, чтобы посмотреть данные EXIF ​​изображений и поместить их в каталоги в формате даты ISO (2008-12-11). Он держит их организованными. Он не решает тегирование по содержанию, но для этого я использую flickr.

Что касается проблемы дублирования, контрольная сумма сократила бы количество изображений, которые вам нужно было бы отсортировать вручную, но, к сожалению, она не подхватила измененные изображения. Вы могли бы искать менее сурового искателя обмана, который не удаляет автоматически дубликаты? Обязательно сделайте резервную копию, прежде чем тестировать: p

+0

Не могли бы вы поделиться своим оригинальным сценарием? – 2008-12-10 20:40:14

2

Рассматривали ли вы получение контрольной суммы md5 каждого файла и определение дубликатов таким образом? Если вы это сделали, вам не придется вручную разрешать дубликаты.

Я проверил бы каждый файл и проверил бы его со словарем уже обработанных файлов. Если он появится в виде дубликата, я отпишу его в каталог дубликатов, а не удалю полностью.

+0

Да, это действительно то, как я реализовал скрипт Ruby, который я использовал для обнаружения дубликатов. Тем не менее, я надеюсь получить некоторое представление о проблеме на более высоком уровне. Мне кажется, что это больше архитектурная проблема управления и организации, которую я пытаюсь решить. – 2008-12-10 20:34:32

1

Вы можете использовать что-то вроде Exiftool, которое существует для Windows, чтобы реорганизовать ваши фотографии в соответствии с CaptureTime (это моя собственная схема) или любыми другими параметрами Exif, которые могут можно найти в файле JPG или RAW. Вы сможете легко найти дубликаты.

Смежные вопросы