Структура файла для меня не важна, поэтому из предыдущего solution, как упоминалось, «преобразование их в обычный текст и импорт их с помощью readLines», я изменил тип файла с «.doc/.docx», к «.txt» и в конечном итоге с ошибкойЧтение файла MSWord во время выполнения
file_list = list.files("D:/R/New",pattern="*.txt",full.names=F
obj_list <- lapply(file_list,readLines)
Warning messages:
1: In FUN(c("adityar.txt":
incomplete final line found on 'adityar.txt'
Я пытался читать с помощью корпуса, как хорошо, но не нашли хороший результат, вот второй solution говорит о PDF и Unix, лучше и быстрее подход, я работаю на платформе Windows, любую помощь.
Вы не просто изменить имя файла из 'adityar.doc' в 'adityar.txt' вы? – Spacedman
См. Http://r.789695.n4.nabble.com/reading-in-MS-Word-files-td899087.html – Andrie
@Aashu Вы открыты для решения python? – agstudy