2016-01-10 3 views
0

Я пытаюсь преобразовать pdf в txt с помощью pdftotxt. Продолжайте получать сообщение об ошибке. Был бы признателен за помощь:PDF to txt в R

dest <- getwd() 

# make a vector of PDF file names 
myfiles <- list.files(path = dest, pattern = "pdf", full.names = TRUE) 


lapply(myfiles, function(i) system(paste('"C:/Users/Karan  Tibrewal/Downloads/xpdfbin-win-3.04.zip/xpdfbin-win-3.04/bin32/pdftotxt.exe"', 
            paste0('"', i, '"')), wait = FALSE)) 

Я получаю это предупреждение:

Предупреждение Сообщение: работает команда «" C:/Users/Karan Tibrewal/Загрузки/xpdfbin-win-3.04.zip/xpdfbin-WIN- 3.04/bin64/pdftotxt.exe "" C:/Пользователи/Karan Tibrewal/Documents/cem/12_13.pdf "'имеет статус 127

Я не могу найти txt-файл. Что не так?

+1

Возможно, вы можете использовать функцию 'readPDF()' из пакета 'tm'. Функция использует программы 'pdftotext' и' pdfinfo', которые должны быть установлены и доступны на вашем компьютере, но она обеспечивает удобную оболочку, которая упрощает извлечение текста из файла PDF в R. – RHertel

ответ

1

Я думаю, вам нужен разделитель, если на пути есть пробел. Что-то вроде «\» вместо \? между Караном и Тибвелелем?

+0

«C:/Users/Karan \ Tibrewal/Загрузки/xpdfbin-win-3.04.zip/xpdfbin-win-3.04/bin32/pdftotxt.exe "вот так? –

+0

да, вы также можете попробовать C:/Users // Karan Tibrewal // Загрузки/xpdfbin-win-3.04.zip/xpdfbin-win-3.04/bin32/pdftotxt.exe – BioProgram

0

Я думаю, что вы получаете ошибку из-за пробелов в пути к файлу. Возможное решение - использовать «Целый путь к файлу» в двойных кавычках. используйте сообщение и проверьте, попадает ли ваш полный путь в двойные кавычки.

Используйте это:

' "" "C:/Users/Karan Tibrewal/Загрузки/xpdfbin-win-3.04.zip/xpdfbin-беспроигрышная 3,04/Bin32/pdftotxt.exe" ""'

paste0 ('"" ", i,'" "" ')