Как можно разместить документы в пространстве (например, несколько сеток), чтобы позиция, в которой они были размещены, содержит информацию о том, насколько они похожи на другие документы. Я посмотрел на кластеризацию K-media, но это немного вычислительно интенсивно, если данные большие. Я ищу что-то вроде хэширования содержимого документа, чтобы они могли вписаться в большое пространство, а похожие документы будут иметь похожие хэши, а расстояние между ними будет небольшим. В этом случае было бы легко найти документы, похожие на данный документ, без дополнительной работы.Организация документов в сетке в соответствии с подобием контента
В результате может быть что-то похожее на изображение ниже. В этом случае музыкальные документы находятся рядом с документами на пленке, но вдали от документов, связанных с компьютерами. Коробку можно рассматривать как весь мир документов.
Любая помощь будет принята с благодарностью.
Благодаря
jvc007
ссылка на изображение повреждена. – rocksportrocker
@rocksportrocker фиксированная ссылка, спасибо. – jvc
выглядит как mds based plotting, как я описал ниже. – rocksportrocker