2017-01-31 4 views
3

Я использую алгоритм сглаживания искривления 1.6 с косинусом (DIMSUM).Понимание искрового косинуса Выход симилитарности

ссылка: https://github.com/eBay/Spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala

Вот что я делаю.

Ввод: Текст документов 50 тыс. С идентификаторами в информационной кадре.

Обработка:

  • лексического Тексты
  • Сформированные векторы с использованием word2Vec
  • Сформирован RowMatrix
  • Используется метод columnSimilarities с пороговым значением (Dimsum)

Выход:

  • Получил координатную матрицу
  • На распечатке записи этой координатной матрицы я получаю выход например формат: MatrixEntry (133,185,0.04106425850610451)

Я не понимаю, что такое число 133 и 185. Я предполагаю, что это были идентификаторы документов/порядковый номер, но я не уверен. Кто-нибудь может помочь здесь?

Извините, если этот вопрос очень тривиален.

+0

Вы смогли найти сходство в документе с помощью CoordinateMatrix? – lives

ответ

0

MatrixEntry(i, j, value) представляет собой подобие между г-го и j-го столбца, так

MatrixEntry(133,185,0.04106425850610451) 

сходство между 133th и 185-й колонке. Эти значения соответствуют условиям, а не документам.

+0

Не могли бы вы объяснить, что содержит 133-я и 185-я колонны? Если значение косинуса близко к 1, означает ли это, что эти два документа являются similair – lives

+0

, почему i и j являются столбцами? как вы знаете, какие документы похожи? –