Я пытаюсь извлечь текст из файлов PDF с помощью Perl. Я использовал pdftotext.exe
из командной строки (используя функцию Perl system
) для извлечения текста из файлов PDF, этот метод работает нормально.Как извлечь текст из файла PDF в Perl?
Проблема в том, что у нас есть символы, такие как α, β и другие специальные символы в файлах PDF, которые не отображаются в сгенерированном txt-файле. Также в тексте добавляются несколько лишних пробелов.
Есть лучше и более надежный способ для извлечения текста из PDF-файлов таким образом, что текст будет включать в себя все символы, как α, β и т.д., и текст будет точно соответствовать тексту в формате PDF (т.е. без лишних пробелов)?
Привет, ребята, спасибо за предложения. Я использую xpdf для извлечения текста из pdf-файлов с параметром -raw, который удаляет эти нежелательные пространства. Но теперь мы хотим преобразовать pdf-файлы в html-файлы для извлечения тегов форматирования html, таких как жирный курсив и т. Д. С текстом. Я попытался использовать pdf2html для этого, но не нашел его надежным, как теги, такие как sup и sub, где они отсутствуют. Теперь мы используем Acrobat Reader для сохранения PDF-файлов в виде html-файла, который дает нам все теги форматирования html. Есть ли способ использовать Acrobat reader в perl для сохранения нескольких файлов PDF в виде файлов html? Спасибо. –
Acrobat Professional позволяет выполнять пакетные задания. Я понимаю, что вам кажется, что вам нужен свободный выход, но так как вы в значительной степени полагаетесь на извлечение PDF-файлов, получение одной лицензии сэкономило бы вам много времени и денег на этом этапе. – nlucaroni