2015-07-08 2 views
0

У меня есть большой файл csv (3.8 Gb) с данными в формате столбца (термин), строки (документа). Я хотел бы преобразовать это в dtm из пакета tm.Преобразование большого CSV DTM в tm пакет DTM

Я пропустил шаг read.csv, но вы поняли эту идею.

dtm <- structure(list(the = c(2L, 1L), apple = c(0L, 2L), dumb = c(1L, 0L)), .Names = c("the", "apple", "dumb"), class = "data.frame", row.names = c(NA, -2L)) 

я тогда не знаю, как преобразовать это формальный тм пакет ЦМР:

c <- Corpus(DataframeSource(dtm)) 

Это неправильно, это очевидно.

Спасибо за любое направление.

ответ

1

Это будет делать это:

tmDTM <- tm::as.DocumentTermMatrix(slam::as.simple_triplet_matrix(dtm), 
            weighting = tm::weightTf) 

Пакет quanteda имеет некоторые интересные реализации на этой функции, а также.

Смежные вопросы