Прежде всего, спасибо за чтение моего вопроса.В java - группировка аналогичных значений
Я использовал TF/IDF, тогда по этим значениям я вычислил подобие косинуса, чтобы увидеть, сколько документов больше похоже. Вы можете увидеть следующую матрицу. Имена столбцов похожи на doc1, doc2, doc3, а имена строк такие же, как doc1, doc2, doc3 и т. Д. С помощью следующей матрицы я вижу, что doc1 и doc4 имеют сходство 72% (0.722711142). Это правильно, даже если я вижу оба документа, они похожи. У меня 1000 документов, и я вижу каждую частоту документа. в матрице, чтобы увидеть, как многие из них похожи. Я использовал различные кластеризации, такие как k-mean и agnes (иерархия), чтобы объединить их. Он создал кластеры. Например, Cluster1 имеет (doc4, doc5, doc3), потому что они имеют значения (0.722711142, 0.602301766, 0.69912109) более близко соответственно. Но когда я вижу вручную, если эти 3 документа действительно одинаковы, они НЕ. :(Что я делаю или я должен использовать что-то другое, кроме кластеризация ??????
1 0.067305859 -0.027552299 0.602301766 0.722711142
0.067305859 1 0.048492904 0.029151952 -0.034714695
-0.027552299 0.748492904 1 0.610617214 0.010912109
0.602301766 0.029151952 -0.061617214 1 0.034410392
0.722711142 -0.034714695 0.69912109 0.034410392 1
PS: Значения могут быть неправильно, это просто чтобы дать вам представление Если у вас есть. вопрос, пожалуйста, спросите Спасибо
любой отзыв ?? любая помощь?????????????????????? – user238384
второстепенный вопрос: существующие решения этой проблемы не могут быть применены или почему вы разрабатываете ее с нуля? Мое чувство говорит, что люцен (или solr) должен был также реализовать это ... – Karussell
Ну, что такое lucene или solr. Я уже сделал это. Теперь у меня есть файл CSV, но у меня вопрос другой. Если вы можете объяснить свой вопрос. Я могу ответить на это более эффективно. – user238384