Я отправил yesturday о вычислении сходства в процентах разницы между двумя файлами, используя количество слов, которое появляется в 1, но не другое. Это был плохой способ выполнить работу, поэтому я подумал, что лучше было бы сделать контрольную сумму MD5 или CRC для обоих файлов и вычислить разницу, используя это. Сделать контрольную сумму легко, но я не уверен, как это сделать, чтобы определить разницу, я знаю, что процент идет по этому поводу линии:Вычислить сходство контрольной суммы
double sameWordPercentage = (1.0 * n/m) * 100;
Console.WriteLine(Math.Round(sameWordPercentage, 2) + "% Similar");
спасибо за любую помощь .. просто не имеют четкое изображение того, как я буду делать это, может быть, некоторые псевдо-код поможет также.
.. ваш вопрос, как получить процентное отличие от хэша? Вы знаете, что будет очень неточно ..? –
Криптографические хеши, такие как MD5, предназначены для получения совсем другого результата для очень небольших изменений. Они совершенно не подходят для определения сходства двух файлов. То же самое относится, хотя и в несколько меньшей степени, к контрольным суммам, таким как CRC. – dtb
Что вы пытаетесь выполнить с этим индексом сходства? Сходство документов - очень активная тема исследования, и многие алгоритмы сходства существуют, некоторые из них очень просты, некоторые другие очень сложные. Лучший подход зависит от того, что вы собираетесь делать с этим индексом. – lstern