Организация документов в сетке в соответствии с подобием контента

Как можно разместить документы в пространстве (например, несколько сеток), чтобы позиция, в которой они были размещены, содержит информацию о том, насколько они похожи на другие документы. Я посмотрел на кластеризацию K-media, но это немного вычислительно интенсивно, если данные большие. Я ищу что-то вроде хэширования содержимого документа, чтобы они могли вписаться в большое пространство, а похожие документы будут иметь похожие хэши, а расстояние между ними будет небольшим. В этом случае было бы легко найти документы, похожие на данный документ, без дополнительной работы.Организация документов в сетке в соответствии с подобием контента

В результате может быть что-то похожее на изображение ниже. В этом случае музыкальные документы находятся рядом с документами на пленке, но вдали от документов, связанных с компьютерами. Коробку можно рассматривать как весь мир документов.

enter image description here

Любая помощь будет принята с благодарностью.

Благодаря

jvc007

источник

2013-04-19 jvc

ссылка на изображение повреждена. – rocksportrocker

@rocksportrocker фиксированная ссылка, спасибо. – jvc

выглядит как mds based plotting, как я описал ниже. – rocksportrocker

Один из способов ввести расстояние или меру сходства между документами являются:

первой закодировать ваши документы в виде векторов, например, с использованием TF-IDF (см https://en.wikipedia.org/wiki/Tf%E2%80%93idf)
скалярное произведение между двумя векторами, относящееся к двум документам, дает вам оценку относительно сходства документы. Чем больше это значение, тем выше сходство.

Использование МДС (http://en.wikipedia.org/wiki/Multidimensional_scaling) на эти сходства должны помочь визуализировать документы в двухмерном участке.

источник

2013-04-19 11:49:24 rocksportrocker

Проблема сопоставления высокоразмерных данных в низкоразмерном пространстве при сохранении подобия может быть решена с использованием Self-organizing map (сеть SOM или Kohonen). Я уже видел некоторые заявки на документы.

Я не знаю ни одной реализации python (может быть такой), но есть хороший для Matlab (SOM toolbox).

источник

2013-04-19 12:52:13

Если мы используем SOM, размер входного вектора при работе с документами будет очень большим, верно?. Может ли это использоваться для крупномасштабной классификации документов?. Спасибо – jvc

Вы можете использовать [LSI] (http://nlp.stanford.edu/IR-book/html/htmledition/latent-semantic-indexing-1.html), чтобы уменьшить размерность до управляемого количества. –

Я думаю, что вы ищете locality-sensitive hashing. См. this answer для приятного графического объяснения и кода примера.

источник

2013-04-19 13:56:58

Организация документов в сетке в соответствии с подобием контента

ответ

Смежные вопросы