Я хочу прочитать несколько текстовых файлов для автоматического анализа текста. Мои файлы - txt-файлы, и я использовал list.files, чтобы перечислить все файлы в каталоге. Каждый текстовый файл является новостной статьей. Код выглядит так.Чтение нескольких текстовых файлов для автоматического анализа текста
lff <- list.files(path = "the path", pattern = paste('*.txt*',sep=""), full.names = TRUE, recursive = TRUE, include.dirs = TRUE)
df<-ldply(lff, readLines)
Я использовал readLines для чтения моих текстов, но эта команда дает мне ошибку, например следующую.
Error in list_to_dataframe(res, attr(.data, "split_labels")) :
Results do not have equal lengths
read.table не подходит для моего анализа. Я все равно хочу импортировать эти тексты для каждой строки.
** Я попробовал
df<-ldply(lff, readLines(warn=FALSE))
, но он взял навсегда, чтобы импортировать эти файлы. У меня только 300+ файлов, так что это не так долго. В чем проблема?
**
Каждый файл выглядит следующим образом.
Это дебаты на прошлой неделе перед комиссией округа Палм-Бич по поводу финансирования для стадиона весеннего обучения выглядели немного как дебаты, которые продолжались в округе Бревард, о том, как много сделать, чтобы провести тренировку в штате Вашингтон в штате Виера , Только цифры были больше.
Поскольку у меня есть список моих 300+ файлов, у меня есть еще 300 строк в объекте lff
. Я хочу импортировать каждый текст в каждой строке. Я также добавлю дополнительные данные для каждой строки, такие как дата и автор каждой статьи.
Заранее благодарен!
Не могли бы вы вставить здесь небольшой текстовый файл? Я не могу дотянуться до вашей идеи, какова структура, которую вы хотите поддержать в своем следующем анализе? ('ldply' даст вам' data.frame', вы можете объяснить, какие 'fields' будут строить' data.frame'?) – hs3180
@ hs3180 Спасибо, я отредактировал мой вопрос – user3077008