Я хочу, чтобы эффективно вычислить сходство Jaccard между документами tm::DocumentTermMatrix
. Я могу сделать что-то подобное для сходства косинуса через slam, как показано в this answer.. Я наткнулся на another question and response на CrossValidated, который был специфичным по R, но о матричной алгебре не обязательно самый эффективный маршрут. Я попытался реализовать это решение с более эффективными функциями slam, но не получаю того же решения, что и при использовании менее эффективного подхода к принуждению DTM к матрице и использованию proxy::dist
.Эффективное сходство с jaccard DocumentTermMatrix
Как я могу эффективно рассчитать сходство Jaccard между документами большой DocumentTermMatrix в R?
#data & Pacages
library(Matrix);library(proxy);library(tm);library(slam);library(Matrix)
mat <- structure(list(i = c(1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 3L, 1L,
2L, 3L, 3L, 3L, 4L, 4L, 4L, 4L), j = c(1L, 1L, 2L, 2L, 3L, 3L,
4L, 4L, 4L, 5L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L), v = c(1,
1, 1, 1, 2, 2, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1), nrow = 4L,
ncol = 12L, dimnames = structure(list(Docs = c("1", "2",
"3", "4"), Terms = c("computer", "is", "fun", "not", "too",
"no", "it's", "dumb", "what", "should", "we", "do")), .Names = c("Docs",
"Terms"))), .Names = c("i", "j", "v", "nrow", "ncol", "dimnames"
), class = c("DocumentTermMatrix", "simple_triplet_matrix"), weighting = c("term frequency",
"tf"))
#Inefficient Расчет (ожидаемый результат)
proxy::dist(as.matrix(mat), method = 'jaccard')
## 1 2 3
## 2 0.000
## 3 0.875 0.875
## 4 1.000 1.000 1.000
Попытка # Мой
A <- slam::tcrossprod_simple_triplet_matrix(mat)
im <- which(A > 0, arr.ind=TRUE)
b <- slam::row_sums(mat)
Aim <- A[im]
stats::as.dist(Matrix::sparseMatrix(
i = im[,1],
j = im[,2],
x = Aim/(b[im[,1]] + b[im[,2]] - Aim),
dims = dim(A)
))
## 1 2 3
## 2 2.0
## 3 0.1 0.1
## 4 0.0 0.0 0.0
Выходы не совпадают.
FYI Вот оригинальный текст:
c("Computer is fun. Not too fun.", "Computer is fun. Not too fun.",
"No it's not, it's dumb.", "What should we do?")
Я бы ожидать, элементы 1 & 2 равным 0 расстояния и элемент 3, чтобы быть ближе к элементу 1, чем элемент 1 и 4 (я бы ожидать дальше всех расстояние, поскольку ни одно слово не разделяется), как видно из решения proxy::dist
.
EDIT
Обратите внимание, что даже на размере DTM среды матрица становится огромной. Вот пример с пакетом vegan . Обратите внимание на 4 минуты, чтобы решить, где в качестве подобия косинуса ~ 5 секунд.
library(qdap); library(quanteda);library(vegan);library(slam)
x <- quanteda::convert(quanteda::dfm(rep(pres_debates2012$dialogue), stem = FALSE,
verbose = FALSE, removeNumbers = FALSE), to = 'tm')
## <<DocumentTermMatrix (documents: 2912, terms: 3368)>>
## Non-/sparse entries: 37836/9769780
## Sparsity : 100%
## Maximal term length: 16
## Weighting : term frequency (tf)
tic <- Sys.time()
jaccard_dist_mat <- vegan::vegdist(as.matrix(x), method = 'jaccard')
Sys.time() - tiC#Time difference of 4.01837 mins
tic <- Sys.time()
tdm <- t(x)
cosine_dist_mat <- 1 - crossprod_simple_triplet_matrix(tdm)/(sqrt(col_sums(tdm^2) %*% t(col_sums(tdm^2))))
Sys.time() - tiC#Time difference of 5.024992 secs
Не уверен, что я понял ваш комментарий. Что именно неправильно в моем ответе? Он создает правильные сходства с jaccard и работает довольно быстро. –
Извините, если мой комментарий выглядит слишком грубым. Скорректированный ответ. –
спасибо очень полезно, PS нравится новые дополнения к text2vec –