У меня есть список контролируемых словарей, например, term1, term2, termN .. Документ может иметь один или несколько контролируемых словарей, но каждый словарь может встречаться только один раз для каждого документа.Мера сходства для документов на основе контролируемых словарей
Позвольте сказать, что все контролируемые словари - это Term1, Term2, Term3, Term4, Term5, Term6.
- Док 1 (4 термины): term1, term2, term5, term6
- Док 2 (2 термины): term2, term5
Вариант1: Подход Jaccard смотрит на двух данных устанавливает и находит инцидент, когда оба значения равны 1. Поэтому я могу преобразовать существование контролируемого термина (термин 1-6) для документа в двоичный вектор 1,0. Затем вычислить сходство, основанный на Jaccard (http://docs.scipy.org/doc/scipy-0.17.0/reference/generated/scipy.spatial.distance.jaccard.html)
- doc1: {1,1,0,0,1,1}
- doc2: {0,1,0,0,1,0}
Вариант 2 - использовать косинус сходства, основанное на TF-IDF, как в http://brandonrose.org/clustering
Среди этих вариантов (или, возможно, другие мер сходства), которые измеряют подходят для вычисления подобия между документами на основе контролируемых словарей? Я новичок в интеллектуальном анализе данных, любые предложения будут оценены.