Я использую R и пакет tm для выполнения некоторого текстового анализа. Я пытаюсь построить подмножество корпуса на основе того, найдено ли определенное выражение в содержимом отдельных текстовых файлов.Подмножество корпуса на основе содержимого текстового файла
создать корпус с 20 текстовых файлов (спасибо lukeA для данного примера):
reut21578 <- system.file("texts", "crude", package = "tm")
corp <- VCorpus(DirSource(reut21578), list(reader = readReut21578XMLasPlain))
теперь я хотел бы, чтобы выбрать только те TextFiles, которые содержат строку «снижение цен», чтобы создать подмножество-корпус ,
Осмотрев первый текстовый файл документа, я знаю, что есть по крайней мере один текстовый файл, содержащий эту строку:
writeLines(as.character(corp[1]))
Как бы мне лучше всего идти об этом?
Большое спасибо за это дополнение. Я согласен, это очень полезно! – tarti