2015-05-21 3 views
-4

Как преобразовать таблицу, которая находится внутри pdf, чтобы преуспеть.Преобразование PDF в Excel

Я пробовал некоторые онлайн-инструменты, но это давало 60% результата.

Ниже приводится таблица образцов, содержащаяся в моем pdf. enter image description here Я спрятал поле, в котором содержится имя.

+0

Преобразование PDF (ы) (* которые обычно отображаются как изображения *) в Excel, как известно, в лучшем случае сложнее. –

+0

Есть ли какой-нибудь другой способ сделать это? –

+0

Пойдите, получите исходный источник данных, который создал этот PDF-файл. –

ответ

2

Получение данных из файла pdf довольно грязно. Если таблица PDF упорядочена и имеет уникальный шаблон, встроенный вместе с ней, лучший способ получить данные - это преобразовать PDF в xml. Для этого вы можете использовать: pdftohtml.

Установка: sudo apt-get install pdftohtml

Использование: pdftohtml -xml *Your File.pdf* *Output File.xml*

Вы можете запустить эту команду непосредственно в терминале.

Файл xml, который вы получите сейчас, будет иметь теги, подобные html, которые вы можете использовать для получения данных из сгенерированного XML-вывода.

PS: Следует отметить, что если таблица PDF не упорядочена, становится очень сложно получить данные из этого xml, потому что теги будут иметь некоторые атрибуты, которые не будут соответствовать шаблону. В этом случае вам нужно будет жестко закодировать вещи.

+0

Я действительно удивляюсь, насколько хорошо это сработает, учитывая, что ОП пытался несколько онлайн-решений, которые не вполне соответствовали его ожиданиям :) –

+1

именно я сам был вовлечен в разбор данных в формате pdf, но получение данных из pdf - это боль в заднице ... особенно когда данные не структурированы. В любом случае он может попробовать, если это работает для него/нее. :) Программное обеспечение онлайн самостоятельно не генерирует желаемый результат, и я помню, что был один веб-сайт, который использовался для его создания, но опять же он имел ручной труд помимо кодирования. –

Смежные вопросы