2009-06-19 3 views
2

Я бы хотел найти алгоритмы дедупликации данных, в основном для поиска дубликатов файлов. Похоже, первым шагом является идентификация файлов с одинаковыми отметками времени, размерами и именами файлов. Я могу сделать контрольную сумму MD5 для этих файлов и сравнить. В дополнение к этому можно сравнивать содержимое файлов. Чего еще я должен смотреть?Алгоритмы дедупликации данных

ответ

2

У вас есть метаинформация ОС (размер и временные метки). Другая метаинформация включает разрешения. Вы можете сравнить информацию inode и dnode, но это мало значит.

У вас есть сводка (контрольная сумма).

У вас есть байтовые байты.

Что еще может быть? Вы просите другие резюме? Сводка менее информативна, чем байтовые данные. Но вы можете легко придумать множество других резюме. Сводка полезна только в том случае, если вы ее где-то сохраните, чтобы не перекомпилировать ее все время.

Если вы хотите сохранить резюме для «основной» копии, вы можете придумать любую сводку, которую хотите. Количество строк, количество букв «e», средняя длина строки, что-то потенциально интересное.

1

Есть продукты, доступные для этого. Найдите дубликат детектив файлов. Он может совпадать по имени, метке времени, md5 и другим алгоритмам

0

Md5 имеет проблемы столкновения (два файла с таким же md5 еще может иметь различное содержание.)

Если выполнить SHA-1 хэш каждого файла и сравнить хэши, только файлы с точно таким же содержанием будет иметь тот же хеш. Период.

Это также помогает, не обращая внимания, есть ли они разные имена, даты изменения и т.д.

Некоторые люди идут лишнюю милю и использовать SHA-256, но это действительно не нужно. Большинство коммерческих устройств дедупликации полагаются на SHA-1 (также называемый SHA-160).

Если вы используете SHA-1 для сравнения файлов, вам ничего не нужно.

Я знаю это, потому что я работал с разными системами и поставщиками дедупликации в течение ряда лет, и я также написал пример системы дедупликации.

+0

Это не совсем правильно: SHA-1, дающий всего 2^160 возможных хэшей, безусловно, делает его очень маловероятным *, чтобы страдать от столкновения, но на самом деле невозможно. Тем не менее, обычно бывает, что только сравнение хэшей даст вам хорошие результаты скорее быстрее, чем байты, поэтому +0 в целом. –

Смежные вопросы