Я использую алгоритм сглаживания искривления 1.6 с косинусом (DIMSUM).Понимание искрового косинуса Выход симилитарности
Вот что я делаю.
Ввод: Текст документов 50 тыс. С идентификаторами в информационной кадре.
Обработка:
- лексического Тексты
- Сформированные векторы с использованием word2Vec
- Сформирован RowMatrix
- Используется метод columnSimilarities с пороговым значением (Dimsum)
Выход:
- Получил координатную матрицу
- На распечатке записи этой координатной матрицы я получаю выход например формат: MatrixEntry (133,185,0.04106425850610451)
Я не понимаю, что такое число 133 и 185. Я предполагаю, что это были идентификаторы документов/порядковый номер, но я не уверен. Кто-нибудь может помочь здесь?
Извините, если этот вопрос очень тривиален.
Вы смогли найти сходство в документе с помощью CoordinateMatrix? – lives