2015-01-06 2 views
0

Я пытаюсь сделать такое программное обеспечение, которое делает 2 текстовых документа разумным, вроде проверки того, насколько текст соответствует, а не как DIFF Я искал довольно на Google, и я нашел 2 вещи, которые являются графиком & TFIDF.Лучший способ сопоставить 2 текстовых документа

Но я запутался между ними обоими, я не знаю, какой из них лучше & также есть ли другой способ, чтобы соответствовать текстовые документы

ответ

0

Вы смотрели на измерения документа схожесть на косинус расстояния? косинусного подобия является мерой сходства между двумя векторами внутреннего пространства продукта, который измеряет косинус угла между ними http://en.wikipedia.org/wiki/Cosine_similarity

Если у вас есть документ A и B, Вы можете создать два термин векторов для дока A и B . Термин vector A будет содержать слова, которые образуют документ A, и каждую слова частоту документа. Вместо частоты сырого слова вы можете использовать TF-IDF. То же самое относится к документу B. После того, как у вас есть векторы Term A и B, вы можете вычислить косинус-сходство векторов-членов A и B, которые представляют doc A и B. Перед созданием векторов-векторов вы выполняете некоторые задачи предварительной обработки, такие как фильтрация стоп-слов.

+0

Отличный ответ. Но можем ли мы использовать ИИ? –

+0

Вы имеете в виду измерение смысловой подобия? т.е. сходство двух документов, основанных на значении или семантическом содержании? Вы можете измерить семантическое сходство, используя онтологии, чтобы определить расстояние между терминами/понятиями, которые находятся внутри документов. – Kasun

+0

Хм, это помогает. благодаря –

Смежные вопросы