2010-10-15 4 views
5

Мне нужно извлечь табличные объекты из PDF-документов, желательно программно используя Perl. Я могу вырезать и вставлять в Excel, но таблица потребует довольно небольшого ручного редактирования после импорта данных в Excel.Могу ли я извлечь таблицы из PDF с помощью Perl?

Я сделал поиск, но пока кажется, что большинство форумов показывают, что большинство API-интерфейсов очень примитивны.

+0

Я только что провел полдня, пытаясь сделать именно это. Я пришел к выводу, что быстрее скопировать и вставить в Excel, чем пытаться программно получить данные из PDF. – CanSpice

+1

Вы посмотрели на CPAN? Там есть несколько высоко оцененных API. Существуют также некоторые несвободные опции, такие как PDFlib, которые можно использовать с Perl и работать очень хорошо. – Cfreak

+0

@ Cfreak, да, я посмотрел на CPAN; как упоминалось выше, не похоже, что эти модули могут читать объекты в PDF. Если я ошибаюсь, мне бы хотелось, чтобы кто-то указал правильный модуль и как его использовать для чтения таблицы. – Face

ответ

2

Лучший модуль, который я знаю для работы с PDF-файлами в perl, - PDF::API2. Однако, не зная больше о манипуляциях, вам нужно сделать все возможное, чтобы дать дополнительные рекомендации. Другая возможность заключается в программировании с использованием встроенных функций VB в Excel, поэтому при копировании таблиц в таблицу Excel Excel выдается макрос, который будет выполнять ваше форматирование для вас.

+1

Все, что мне нужно, это обработать текст, который находится в таблице. Помните, что ячейка может иметь (пустые поля, несколько строк, пробелы, комы и т. Д.). Который, если я вырезаю и вставляю, представляет проблему, с помощью которой ограничитель может указать Excel на использование. – Face

1

Я думаю, что лучший модуль CPAN для этого, вероятно, будет CAM::PDF.

Однако я не использовал модуль, поэтому не могу подтвердить, что он (легко) сделает то, что вам нужно, но это PDF manipulation library и modules author does answer questions около CAM::PDF здесь, на SO.

Также см этот предыдущий вопрос: How can I extract text from a PDF file in Perl?

/I3az/

Смежные вопросы