2012-01-27 4 views
0

Мне нужно найти сходство между ссылочным документом и набором документов в репозитории.Сомнения в отношении LSA

Method : 

1. I find the term document matrix for all the documents including the reference document 
2. The svd is calculated for this matrix 
3. I take the v array(The third result) 
4. I transpose this matrix so that the each row represents a document . 
5. The first row represents the reference document . 
6. I find the cosine similarity beween this row and the rest of the rows 

Мои сомнения:

  1. Поскольку у меня есть около 7 документов в моей БД, я получаю только 8 * 8 VARRAY (матрица документа). SO, я получу правильный результат, если я найду сходство косинусов с этими 8 значениями в одиночку?

  2. Является ли такой способ общепринятым?

Я использую java для кодирования этого. Я использую пакет jama для поиска svd.

+1

8 документов очень маленький DataSet – dave

+0

нормально .. но для нахождения косинуса схожесть ли я использовать матрицы и или V матрицу в СВД (в usv) матричный результат? – CTsiddharth

ответ

0
  • Я пробовал использовать Matlab, используя ящик для инструментов TMG. Он работает нормально.
  • Для получения более точных результатов (или для большей точности) используйте большие наборы данных.
  • В LSA, svd является его частью (для уменьшения размеров). Для , вычисляя ваше сходство, вам понадобится последняя матрица, которую вы получите после этого расчета A = U * S * V^t.

Вы можете прочитать пример LSA Here

+0

Спасибо! но можно ли использовать LSA для поиска сходства между двумя документами (нет запросов)? В этом случае мы должны рассмотреть первую матрицу или последнюю матрицу в svd для вычисления подобия косинуса. Пожалуйста помоги ! – CTsiddharth

+0

В SVD мы делим матрицу на 3 матрицы. Опять же нам нужно умножить эти 3 матрицы, а затем получим другую матрицу, которая составляет ок. аналогично A. Как A = U * S * V^t. И тогда мы применяем сходство Косина. Это не похоже на рассмотрение первой или последней матрицы. Следуйте примеру, о котором я упомянул. Следуйте по этой ссылке для сходства косинусов: [link] (applysoftwaredesign.com/cosineSimilarityCalculator.php) Если у вас больше сомнений, тогда скажите мне. – Debaditya

+0

, пожалуйста, посмотрите мой вопрос [link] (http://stackoverflow.com/questions/9060168/problems-using-jama-in-java-for-lsa) и скажите мне, где я иду не так – CTsiddharth

Смежные вопросы