2013-07-03 5 views
3

Я работаю для издателя и пытаюсь извлечь контент из наших полностью выложенных PDF-файлов. Я попытался использовать pdftohtml, pdftotext, pdfminer и другие подходы на основе Python для получения контента, а также для сохранения в Word, HTML, XML и т. Д. Из исходных файлов Acrobat.Как автоматизировать преобразование PDF в HTML?

Мне не нужен только текст, мне также требуется форматирование текста. Это потому, что, например, мне нужен синий текст в документе.

Когда я сохраняю в HTML, Word и т. Д. Из Acrobat, результирующие файлы содержат скриншоты страниц, а не выложенный текст. Когда я извлекаю текст с использованием разных модулей Python, я получаю текст, но теряю форматирование текста.

Единственное решение, которое я нашел, - это вручную скопировать и вставить из PDF в слово doc, а затем сохранить как HTML. Я надеюсь автоматизировать это.

Почему копирование из Acrobat в Word достигает того, чего я не могу сделать другими способами? Кто-нибудь сталкивался с этой проблемой раньше?

ответ

0

Возможно, вы можете рассмотреть другой метод. Программное обеспечение (https://pdfapi.codeplex.com/) может конвертировать PDF-файлы в html напрямую через MVS. Если вы можете использовать MVS, я думаю, что программное обеспечение, упомянутое выше, полезно для вас, чтобы преобразовать текст в pdf-файлы в html, который идеально поддерживает формат. Конечно, это просто реферал, вы можете попробовать.