2014-01-13 6 views
0

Структура файла для меня не важна, поэтому из предыдущего solution, как упоминалось, «преобразование их в обычный текст и импорт их с помощью readLines», я изменил тип файла с «.doc/.docx», к «.txt» и в конечном итоге с ошибкойЧтение файла MSWord во время выполнения

file_list = list.files("D:/R/New",pattern="*.txt",full.names=F 
obj_list <- lapply(file_list,readLines) 
Warning messages: 
1: In FUN(c("adityar.txt": 
    incomplete final line found on 'adityar.txt' 

Я пытался читать с помощью корпуса, как хорошо, но не нашли хороший результат, вот второй solution говорит о PDF и Unix, лучше и быстрее подход, я работаю на платформе Windows, любую помощь.

+0

Вы не просто изменить имя файла из 'adityar.doc' в 'adityar.txt' вы? – Spacedman

+0

См. Http://r.789695.n4.nabble.com/reading-in-MS-Word-files-td899087.html – Andrie

+0

@Aashu Вы открыты для решения python? – agstudy

ответ

0

Использование питона, вы можете сделать это:

from docx import * 
import json 
document = opendocx("path_to_your_docx") 
res = getdocumenttext(document) 

Вы можете сохранить свой сценарий и вызвать его из R с помощью system

Смежные вопросы