Быстрый и точный метод сравнения сходства между текстовыми документами

Мне нужно сравнить две группы документов (например, одна группа может иметь 1000 документов) и определить, какой документ второй группы наиболее похож на определенный документ в первом группа. До сих пор я использовал TF/IDF и сходство с косинусом, но мне нужно что-то более быстрое и точное, как TF/IDF :) Можете ли вы предложить мне более быстрый алгоритм или улучшить время TF/IDF?Быстрый и точный метод сравнения сходства между текстовыми документами

источник

2013-07-09 gula

Вы хотите получить точность или скорость? У вас есть индекс для хранения промежуточного TFxIDF? Вы хотите использовать технику НЛП? Синонимы? – Galigator

Как вы определяете ** «аналогичный» **. Быстрый первый шаг может быть сравним с историей n-gram. или сравнить наборы слов, используемых в документах. – MrSmith42

Mr K, скорость является самой важной, а затем и точный результат :) – gula

Это зависит от того, с какими различиями вы пытаетесь соответствовать. Самый быстрый подход, который я знаю, это использовать согласование гальки с minHash: http://www.stanford.edu/~ashishg/amdm/handouts/scribed-lec10.pdf http://en.wikipedia.org/wiki/MinHash

Он используется, чтобы найти вблизи/точные дубликаты, а не частично аналогичные документы.

источник

2013-07-09 16:22:37 ElKamina

Спасибо, я Посмотрим на этот метод. Для меня наиболее важно найти два документа с наиболее похожим текстом – gula

Привет, я понимаю, этот метод лучше всего подходит только для дубликатов, а не для 2 текстовых документов, которые имеют сходство 0,5 (1-равное, 0-полностью различное). Я прав? Мне не нужен такой метод, но спасибо в любом случае – gula

Быстрый и точный метод сравнения сходства между текстовыми документами

ответ

Смежные вопросы