2014-10-14 7 views
3

Я видел некоторые страницы, которые позволяют пользователю загрузить PDF и возвращает DOC файл, как PdfToWordПреобразование PDF в DOC (Python/Bash)

Есть ли способ преобразовать файл PDF к DOC/DOCX файл с использованием Python или любой команды Unix?

Заранее спасибо

+0

Я думаю, вы не понимаете мой вопрос, я буду редактировать – AlvaroAV

ответ

4

Если у вас есть LibreOffice установлен

lowriter --invisible --convert-to doc '/your/file.pdf' 

Если вы хотите использовать Python для этого:

import os 
import subprocess 

for top, dirs, files in os.walk('/my/pdf/folder'): 
    for filename in files: 
     if filename.endswith('.pdf'): 
      abspath = os.path.join(top, filename) 
      subprocess.call('lowriter --invisible --convert-to doc "{}"' 
          .format(abspath), shell=True) 
+0

Выполнения эту команду на моем терминале, он просто открывает новый _empty_ LibreOffice. Я делаю 'lowriter -invisible -convert-to doc 'mypdf.pdf''. Но, похоже, это то, что я ищу! Благодаря! – AlvaroAV

+0

@Liarez Вы можете указать выходную папку в аргументах. По умолчанию преобразованный файл может присутствовать в каталоге ~/Home. Проверьте параметры справки ('lowriter --help'). Извините, я не мог проверить это сейчас. –

+0

Решенный! Я, наконец, смог заставить команду работать! Он работает, как и ожидалось, спасибо вам большое! – AlvaroAV

4

Это трудно, потому что PDF-файлы являются презентационными ориентированным и текстовыми документами содержания ориентированным. Я тестировал оба варианта и могу рекомендовать следующие проекты.

  1. PyPDF2
  2. PDFMiner

Однако, вы определенно будете терять презентационные аспекты в процессе преобразования.