Я создаю Copus из dataframe. Я передаю его как VectorSource
, так как есть только один столбец, который я хочу использовать в качестве источника текста. Однако это работает, но мне нужны идентификаторы документов в корпусе для соответствия идентификаторам документа из фреймворка данных. Идентификаторы документов хранятся в отдельном столбце исходного фрейма.Как я могу вручную установить идентификатор документа в корпусе?
df <- as.data.frame(t(rbind(c(1,3,5,7,8,10),
c("text", "lots of text", "too much text", "where will it end", "give peas a chance","help"))))
colnames(df) <- c("ids","textColumn")
library("tm")
library("lsa")
corpus <- Corpus(VectorSource(df[["textColumn"]]))
Выполнение этого кода создает корпус, однако идентификаторы документов работают от 1 до 6. Есть ли способ создания корпуса с идентификаторами документов 1,3,5,7,8,10?
Это работает! Я подожду немного, чтобы увидеть, может ли кто-нибудь придумать что-то более элегантное, возможно, назначая их во время создания реального корпуса. Но если они не могут, я с радостью соглашусь с этим, если бы не за вашу скорость ответа;) – user1098798
@ user1098798 Спасибо! Я слегка изменил свой ответ, потому что, очевидно, вы можете напрямую повторно использовать идентификаторы из ваших исходных данных ... – juba