У меня есть куча текстов о программировании в формате Markdown. Существует процесс сборки, который способен преобразовывать эти тексты в Word/HTML, а также выполнять простые правила проверки, такие как проверка орфографии или проверка наличия требуемой структуры заголовка. Я хотел бы расширить этот код сборки, чтобы также проверять скопированные или похожие фрагменты во всех текстах.Обнаружение скопированных или похожих текстовых блоков
Есть ли какая-либо существующая библиотека Java/Groovy, которая может помочь мне в этом анализе?
Моя первая идея заключалась в использовании PMP CopyPasteDetector, но она слишком ориентирована на анализ реального кода. Я не вижу, как я могу использовать его для анализа обычного текста.