Мне нужно найти сходство между ссылочным документом и набором документов в репозитории.Сомнения в отношении LSA
Method :
1. I find the term document matrix for all the documents including the reference document
2. The svd is calculated for this matrix
3. I take the v array(The third result)
4. I transpose this matrix so that the each row represents a document .
5. The first row represents the reference document .
6. I find the cosine similarity beween this row and the rest of the rows
Мои сомнения:
Поскольку у меня есть около 7 документов в моей БД, я получаю только 8 * 8 VARRAY (матрица документа). SO, я получу правильный результат, если я найду сходство косинусов с этими 8 значениями в одиночку?
Является ли такой способ общепринятым?
Я использую java для кодирования этого. Я использую пакет jama для поиска svd.
8 документов очень маленький DataSet – dave
нормально .. но для нахождения косинуса схожесть ли я использовать матрицы и или V матрицу в СВД (в usv) матричный результат? – CTsiddharth