У меня есть проект, требующий от меня поискать годовые отчеты различных компаний и находить в них ключевые фразы. Я преобразовал отчеты в текстовые файлы, создал и очистил корпус. Затем я создал матрицу документов. Функция tm_term_score работает только для отдельных слов, а не для фраз. Можно ли искать корпус для ключевых фраз (не обязательно наиболее часто)?поиск ключевых фраз с использованием пакета tm в r
Например -
Я хочу видеть, сколько раз фраза «цепочки поставок финансов» в каждом документе в корпусе. Однако, когда я запускаю код с помощью tm_term_score - он возвращает, что никакие документы не имели фразу .. Когда они на самом деле это сделали.
Мой прогресс выглядит следующим образом
library(tm)
library(stringr)
setwd(‘C:/Users/Desktop/Annual Reports’)
dest<-“C:/Users/Desktop/Annual Reports”
a<-Corpus(DirSource(“C:/Users/Desktop/Annual Reports”), readerControl ≈ list (language ≈“lat”))
a<-tm_map(a, removeNumbers)
a<-tm_map(a, removeWords, stopwords(“english”))
a<-tm_map(a, removePunctuation)
a<-tm_map(a, stripWhitespace)
tokenizing.phrases<-c(“supply growth”,“import revenues”, “financing projects”)
Я очень слаб и новым для г и не decifier как искать свой корпус для этих ключевых фраз.
Благодарим за отзыв lawyeR. Я все еще изо всех сил пытаюсь выработать ваш ответ. Я редактировал свой вопрос, включая некоторые из ваших предложений, которые я понимаю. Извини за это! Я очень новый, и я ценю вашу помощь. –
Hi lawyeR! Когда я ввожу введенный код, я получаю следующие сообщения об ошибках и предупреждениях. Ошибка в str_detect (x, ignore_case = TRUE (tokenising.phrases)): неиспользуемый аргумент (ignore_case = TRUE (tokenising.phrases) дополнительно: Предупреждающее сообщение: In if (is.na (a)) return (" "): условие имеет длину> 1, и будет использоваться только первый элемент. Как я могу решить эту проблему? Я ценю вашу помощь! –