2014-09-28 1 views
1

Я хочу прочитать несколько текстовых файлов для автоматического анализа текста. Мои файлы - txt-файлы, и я использовал list.files, чтобы перечислить все файлы в каталоге. Каждый текстовый файл является новостной статьей. Код выглядит так.Чтение нескольких текстовых файлов для автоматического анализа текста

lff <- list.files(path = "the path", pattern = paste('*.txt*',sep=""), full.names = TRUE, recursive = TRUE, include.dirs = TRUE) 
df<-ldply(lff, readLines) 

Я использовал readLines для чтения моих текстов, но эта команда дает мне ошибку, например следующую.

Error in list_to_dataframe(res, attr(.data, "split_labels")) : 
Results do not have equal lengths 

read.table не подходит для моего анализа. Я все равно хочу импортировать эти тексты для каждой строки.

** Я попробовал

df<-ldply(lff, readLines(warn=FALSE)) 

, но он взял навсегда, чтобы импортировать эти файлы. У меня только 300+ файлов, так что это не так долго. В чем проблема?

**

Каждый файл выглядит следующим образом.

Это дебаты на прошлой неделе перед комиссией округа Палм-Бич по поводу финансирования для стадиона весеннего обучения выглядели немного как дебаты, которые продолжались в округе Бревард, о том, как много сделать, чтобы провести тренировку в штате Вашингтон в штате Виера , Только цифры были больше.

Поскольку у меня есть список моих 300+ файлов, у меня есть еще 300 строк в объекте lff. Я хочу импортировать каждый текст в каждой строке. Я также добавлю дополнительные данные для каждой строки, такие как дата и автор каждой статьи.

Заранее благодарен!

+0

Не могли бы вы вставить здесь небольшой текстовый файл? Я не могу дотянуться до вашей идеи, какова структура, которую вы хотите поддержать в своем следующем анализе? ('ldply' даст вам' data.frame', вы можете объяснить, какие 'fields' будут строить' data.frame'?) – hs3180

+0

@ hs3180 Спасибо, я отредактировал мой вопрос – user3077008

ответ

0

Я не знаю, что статья есть (это его файл или ряд?), Но я думаю, что вы будете нуждаться в этом.

df <- ldply(lff, function(file) { 
    content <- readLines(file) 
    date <- smth_date 
    author <- smth_author 
    data.frame(content = content, date = date, author = author, stringsAsFactors = FALSE) 
}) 

PS: не забывайте, что stringsAsFactors = FALSE, авто преобразованные факторы всегда дают мне неожиданные ошибки.

Смежные вопросы