Мне нужно сравнить две группы документов (например, одна группа может иметь 1000 документов) и определить, какой документ второй группы наиболее похож на определенный документ в первом группа. До сих пор я использовал TF/IDF и сходство с косинусом, но мне нужно что-то более быстрое и точное, как TF/IDF :) Можете ли вы предложить мне более быстрый алгоритм или улучшить время TF/IDF?Быстрый и точный метод сравнения сходства между текстовыми документами
ответ
Это зависит от того, с какими различиями вы пытаетесь соответствовать. Самый быстрый подход, который я знаю, это использовать согласование гальки с minHash: http://www.stanford.edu/~ashishg/amdm/handouts/scribed-lec10.pdf http://en.wikipedia.org/wiki/MinHash
Он используется, чтобы найти вблизи/точные дубликаты, а не частично аналогичные документы.
Спасибо, я Посмотрим на этот метод. Для меня наиболее важно найти два документа с наиболее похожим текстом – gula
Привет, я понимаю, этот метод лучше всего подходит только для дубликатов, а не для 2 текстовых документов, которые имеют сходство 0,5 (1-равное, 0-полностью различное). Я прав? Мне не нужен такой метод, но спасибо в любом случае – gula
- 1. Поиск сходства между двумя документами
- 2. Сходство между двумя текстовыми документами
- 3. Определение сходства между несколькими текстовыми блоками
- 4. Точечный рисунок сходства и сравнения
- 5. Найдите сходства между блоками текста между многими документами HTML?
- 6. разница находкой и сходства между двумя текстовыми файлами, используя AWK
- 7. Точный (и быстрый) угол соответствия
- 8. Различия между документами и документами в угловом
- 9. Image Pixels reading Самый быстрый метод и предопределенный метод сравнения
- 10. Построение системы рекомендаций для сравнения сходства между строками
- 11. Простой и быстрый метод сравнения изображений для подобия
- 12. сравнения строк с сходства и различия
- 13. функция моделирования установлено с текстовыми документами
- 14. сходства между мешками слов
- 15. Вычисление сходства между и центроидом документов Lucene
- 16. jQuery Переключение между текстовыми текстовыми сообщениями между двумя текстовыми сообщениями
- 17. Сходства между WPF и Silverlight
- 18. Быстрый алгоритм сравнения массива без обмена данными
- 19. Journal/Продолжение сравнения сходства двух изображений?
- 20. Быстрый и точный таймер повторения Python
- 21. OpenCV: быстрый способ сравнить рамки для сходства
- 22. Самый быстрый способ расчета сходства/расстояния OpenGL?
- 23. быстрый способ сравнения строк
- 24. Мера сходства между двумя изображениями
- 25. Измерение сходства между двумя векторами
- 26. Дифференциация между новыми документами и восстановленными документами в приложении Cocoa
- 27. Быстрый подсчет сравнения
- 28. Разница между текстовыми элементами и текстовыми элементами asp.net
- 29. Точный метод отслеживания времени
- 30. Сходства и различия между JSF и AngularJS
Вы хотите получить точность или скорость? У вас есть индекс для хранения промежуточного TFxIDF? Вы хотите использовать технику НЛП? Синонимы? – Galigator
Как вы определяете ** «аналогичный» **. Быстрый первый шаг может быть сравним с историей n-gram. или сравнить наборы слов, используемых в документах. – MrSmith42
Mr K, скорость является самой важной, а затем и точный результат :) – gula