2013-07-09 2 views
2

Мне нужно сравнить две группы документов (например, одна группа может иметь 1000 документов) и определить, какой документ второй группы наиболее похож на определенный документ в первом группа. До сих пор я использовал TF/IDF и сходство с косинусом, но мне нужно что-то более быстрое и точное, как TF/IDF :) Можете ли вы предложить мне более быстрый алгоритм или улучшить время TF/IDF?Быстрый и точный метод сравнения сходства между текстовыми документами

+0

Вы хотите получить точность или скорость? У вас есть индекс для хранения промежуточного TFxIDF? Вы хотите использовать технику НЛП? Синонимы? – Galigator

+0

Как вы определяете ** «аналогичный» **. Быстрый первый шаг может быть сравним с историей n-gram. или сравнить наборы слов, используемых в документах. – MrSmith42

+0

Mr K, скорость является самой важной, а затем и точный результат :) – gula

ответ

1

Это зависит от того, с какими различиями вы пытаетесь соответствовать. Самый быстрый подход, который я знаю, это использовать согласование гальки с minHash: http://www.stanford.edu/~ashishg/amdm/handouts/scribed-lec10.pdf http://en.wikipedia.org/wiki/MinHash

Он используется, чтобы найти вблизи/точные дубликаты, а не частично аналогичные документы.

+0

Спасибо, я Посмотрим на этот метод. Для меня наиболее важно найти два документа с наиболее похожим текстом – gula

+0

Привет, я понимаю, этот метод лучше всего подходит только для дубликатов, а не для 2 текстовых документов, которые имеют сходство 0,5 (1-равное, 0-полностью различное). Я прав? Мне не нужен такой метод, но спасибо в любом случае – gula

Смежные вопросы