У меня есть набор данных (сообщения в Facebook) (через netvizz), и я использую пакет quanteda в R. Вот мой R-код.R Text Mining with quanteda
# Load the relevant dictionary (relevant for analysis)
liwcdict <- dictionary(file = "D:/LIWC2001_English.dic", format = "LIWC")
# Read File
# Facebooks posts could be generated by FB Netvizz
# https://apps.facebook.com/netvizz
# Load FB posts as .csv-file from .zip-file
fbpost <- read.csv("D:/FB-com.csv", sep=";")
# Define the relevant column(s)
fb_test <-as.character(FB_com$comment_message) #one column with 2700 entries
# Define as corpus
fb_corp <-corpus(fb_test)
class(fb_corp)
# LIWC Application
fb_liwc<-dfm(fb_corp, dictionary=liwcdict)
View(fb_liwc)
Все работает до тех пор:
> fb_liwc<-dfm(fb_corp, dictionary=liwcdict)
Creating a dfm from a corpus ...
... indexing 2,760 documents
... tokenizing texts, found 77,923 total tokens
... cleaning the tokens, 1584 removed entirely
... applying a dictionary consisting of 68 key entries
Error in `dimnames<-.data.frame`(`*tmp*`, value = list(docs = c("text1", :
invalid 'dimnames' given for data frame
Как бы вы интерпретировать сообщение об ошибке? Есть ли предложения по решению проблемы?
Трудно сказать, так как я не имею входные файлы текстовых, но что, если вы пытаетесь просто 'DFM (inaugTexts, словарь = liwcdict)', что происходит? У меня есть файл 'LIWC2001_English.dic', а команда' dfm' отлично работает в моей системе с 'inaugTexts' - хотя она медленная и ее необходимо переписать для ее оптимизации (далее в моем списке). –
Теперь это исправлено в ветке dev, которую вы можете установить в соответствии с приведенным ниже ответом. –