Мне нужно удалить дублированные абзацы в тексте со многими абзацами.Как сравнить два абзаца текста?
Я использую функции класса java.security.MessageDigest
для вычисления значения хэша MD5 каждого абзаца, а затем добавьте это значение хеша в Set
.
Если add()
'ed успешно, это означает, что последний абзац является дубликатом.
Есть ли риск такого рода?
За исключением String.equals()
, есть ли другой способ сделать это?
Я думаю, что это лучший подход вместо выполнения сравнения строк. –
Я согласен с Равиндрой. MD5 не создает уникальные хеши. –
Нужно ли им соответствовать _exactly_ или игнорировать, скажем, ведущие/конечные пробелы? –