2016-05-16 2 views
1

У меня есть список контролируемых словарей, например, term1, term2, termN .. Документ может иметь один или несколько контролируемых словарей, но каждый словарь может встречаться только один раз для каждого документа.Мера сходства для документов на основе контролируемых словарей

Позвольте сказать, что все контролируемые словари - это Term1, Term2, Term3, Term4, Term5, Term6.

  1. Док 1 (4 термины): term1, term2, term5, term6
  2. Док 2 (2 термины): term2, term5

Вариант1: Подход Jaccard смотрит на двух данных устанавливает и находит инцидент, когда оба значения равны 1. Поэтому я могу преобразовать существование контролируемого термина (термин 1-6) для документа в двоичный вектор 1,0. Затем вычислить сходство, основанный на Jaccard (http://docs.scipy.org/doc/scipy-0.17.0/reference/generated/scipy.spatial.distance.jaccard.html)

  • doc1: {1,1,0,0,1,1}
  • doc2: {0,1,0,0,1,0}

Вариант 2 - использовать косинус сходства, основанное на TF-IDF, как в http://brandonrose.org/clustering

Среди этих вариантов (или, возможно, другие мер сходства), которые измеряют подходят для вычисления подобия между документами на основе контролируемых словарей? Я новичок в интеллектуальном анализе данных, любые предложения будут оценены.

ответ

-1

Это не позволит мне оставить комментарий, поэтому я оставлю ответ. Я делаю что-то подобное, но в R, и найти это полезным

http://text2vec.org/similarity.html#cosine_similarity 

Я не знаю, если есть «правильный ответ». Я бы попробовал разные подходы и посмотрел, что дает ответ, наиболее похожий на суждение человека. Я думаю, что «евклидово расстояние» может быть лучше, но я не знаю, доступно ли это вам. I

Смежные вопросы