2016-09-02 2 views
4

Здесь есть трасса для TextRank:Почему собственные значения adajcency матрицы фактически приговаривают баллы в Textrank

  1. документ резюмировать выражается в тс-IDF матрица
  2. (тс-IDF матрица) * (тс-IDF матрица) .Transpose = матрица смежности некоторого графа, вершинами которого являются фактически приговоры выше документа
  3. ранг страницы применяется на этом графике -> возвращает значения PR каждого предложения

Теперь эти значения PR фактически являются собственными значениями этой матрицы смежности
Каков физический смысл или интуиция за этим.?

Почему значения Eigen на самом деле являются рядами?

Вот ссылка для Page Rank: http://www.cs.princeton.edu/~chazelle/courses/BIB/pagerank.htm

Вот выдержка сверху страницы:
PageRank или PR-(А) может быть вычислена с использованием простого итеративного алгоритма, и соответствует основной собственный вектор нормализованной матричной матрицы.

Ссылка для TextRank: https://joshbohde.com/blog/document-summarization

ответ

2

Начнем с того, ваш вопрос немного ошибаетесь. Оценки: не баллов. Скорее всего, записей стационарного собственного вектора - это оценки.

Textrank работает на graphical approach to words. Она имеет ряд вариаций, но они имеют следующие общие шаги:

  1. Создать взвешенный граф, где вершины являются лица (слова или предложения), а веса вероятности переходов между объектами.

  2. Найти stochastic matrix, связанный с графиком, и оценить каждую сущность в соответствии с ее стационарным распределением.

В этом случае график строится следующим образом. Сначала создается матрица, где строки - это предложения, а столбцы - слова. Записи матрицы задаются TF-IDF. Чтобы найти сходство между предложениями, нормализованная матрица умножается на ее преобразование. Это связано с тем, что для каждых двух предложений и слова существует сходство между предложениями, основанными на произведении TF-IDF слова в каждом предложении, и нам нужно суммировать все слова. Если вы немного об этом подумаете, то суммирование продуктов - это именно то, что делает матричное умножение транспозицией.

Итак, теперь мы имеем стохастическую матрицу P , которая может быть интерпретирована как вероятность перехода от предложения я приговорить J.Оценка является стационарным распределением х, что означает, что

P х = х = 1 х.

Это означает, что х является собственным вектором, связанный с собственным значением 1. По Perron-Frobenius Theorem этому собственному вектору существует в некоторых мягких условиях, и 1 является самым большим собственным значением. Эта последняя часть в основном Pagerank.

+0

Спасибо .... Итак, мы получаем некоторый собственный вектор, используя это выше уравнение ... НО ЗАМЕЧАНИЕ: ** Как найти некоторый собственный вектор, связанный с алгоритмом PageRank ..? ** Что такое интуиция/физический смысл это отношение ...?. Не могли бы вы рассказать об этом? – mach

+0

Последняя часть * есть * Pagerank, в основном: она находит значение, решая для стационарного собственного вектора стохастической матрицы * P *. Текстовый ранг в основном заимствует эту идею для приложений ранжирования предложений и указывает, как построить * P * для этого случая. –

+0

И как получается, что матрица P является стохастической (значения tf-idf могут быть любыми и не могут быть добавлены к 1)? – mach

Смежные вопросы