Получение данных из файла pdf довольно грязно. Если таблица PDF упорядочена и имеет уникальный шаблон, встроенный вместе с ней, лучший способ получить данные - это преобразовать PDF в xml. Для этого вы можете использовать: pdftohtml.
Установка: sudo apt-get install pdftohtml
Использование: pdftohtml -xml *Your File.pdf* *Output File.xml*
Вы можете запустить эту команду непосредственно в терминале.
Файл xml, который вы получите сейчас, будет иметь теги, подобные html, которые вы можете использовать для получения данных из сгенерированного XML-вывода.
PS: Следует отметить, что если таблица PDF не упорядочена, становится очень сложно получить данные из этого xml, потому что теги будут иметь некоторые атрибуты, которые не будут соответствовать шаблону. В этом случае вам нужно будет жестко закодировать вещи.
Преобразование PDF (ы) (* которые обычно отображаются как изображения *) в Excel, как известно, в лучшем случае сложнее. –
Есть ли какой-нибудь другой способ сделать это? –
Пойдите, получите исходный источник данных, который создал этот PDF-файл. –