Использование R {тм} пакет, я создать корпус, по обыкновению:названия документов R тм отсутствует
mycorpus <- Corpus(DirSource(folder,pattern="txt"))
Пожалуйста, обратите внимание, что я не использую переменную кодирования. В списке summary (mycorpus)
перечислены имена документов. Однако после того, как ряд tm_map трансформирует:
(content_transformer(tolower),content_transformer(removeWords), stopwords("SMART"),stripWhitespace)
заканчивая mycorpus<- tm_map(mycorpus, PlainTextDocument)
и mydtm <- DocumentTermMatrix(mycorpus, control = list(...))
Я получаю сообщение об ошибке с inspect(mydtm[1:10, intersect(colnames(dtm), 'toyota')])
, чтобы получить мою переменную выбора: Terms Docs toyota character(0) 0 character(0) 0 character(0) 0 character(0) 0 character(0) 1 character(0) 0 character(0) 0 character(0) 0 character(0) 1 character(0) 0
Имена файлов (Doc ID) имеют исчез. Любая идея, что может вызвать эту ошибку? что еще важнее, как восстановить имена документов? Большое спасибо.