Я работаю для издателя и пытаюсь извлечь контент из наших полностью выложенных PDF-файлов. Я попытался использовать pdftohtml, pdftotext, pdfminer и другие подходы на основе Python для получения контента, а также для сохранения в Word, HTML, XML и т. Д. Из исходных файлов Acrobat.Как автоматизировать преобразование PDF в HTML?
Мне не нужен только текст, мне также требуется форматирование текста. Это потому, что, например, мне нужен синий текст в документе.
Когда я сохраняю в HTML, Word и т. Д. Из Acrobat, результирующие файлы содержат скриншоты страниц, а не выложенный текст. Когда я извлекаю текст с использованием разных модулей Python, я получаю текст, но теряю форматирование текста.
Единственное решение, которое я нашел, - это вручную скопировать и вставить из PDF в слово doc, а затем сохранить как HTML. Я надеюсь автоматизировать это.
Почему копирование из Acrobat в Word достигает того, чего я не могу сделать другими способами? Кто-нибудь сталкивался с этой проблемой раньше?