У меня есть проект, где мне нужно сравнить документы с несколькими разделами со вторым документом, чтобы определить их сходство. Проблема в том, что я понятия не имею, как это сделать, какие существуют подходы или какие библиотеки доступны.Текстовый анализ больших документов
Мой первый вопрос: что такое? Число слов, которые соответствуют, количество последовательных слов, которые соответствуют?
Я мог видеть, как писать парсер, который помещает каждый документ в массив со словом и положением, а затем сравнивает их.
я видел ранее вопрос на Algorithms or libraries for textual analysis, specifically: dominant words, phrases across text, and collection of text
однако, кажется, несколько иной, чем то, что я пытаюсь сделать.
Любые варианты или указатели, которые могут быть у людей, были бы замечательными!
Я бы сказал, что подход сильно зависит от типа документа (руководство, кандидатская диссертация, роман?) – Treb
«что похоже» является ключевым вопросом и зависит от того, кто будет использовать ваши результаты и с какой целью , Вы должны подробно остановиться на этом аспекте. – RBarryYoung
Немного больше фона, извините за путаницу. Мы хотим сравнить документы, которые мы получаем от людей, к библиотеке, защищенной авторским правом, которая может составлять 100 страниц. Тем не менее, порой то, что подается, - это мусор, а в других случаях действителен. Мы хотим определить, где есть существенные совпадения. –