2016-10-20 2 views
-1

Я использую pdftotext для извлечения информации из pdf. В настоящее время используется опция -raw. У меня есть несколько проблем с файлами PDF, с которыми я работаю. Если я выбираю текст сверху вниз, он выбирает следующим образом.Невозможно выбрать PDF сверху вниз

содержание PDF:

B

C

Он выбирает то C, а затем B. Поэтому, когда я извлекаю текст это представлено таким же образом. Есть ли способ переформатировать PDF, чтобы я мог выбирать контент сверху вниз?

ПРИМЕЧАНИЕ: Я знаю, что если я опустил «необработанный» вариант, макет будет сохранен, но он, похоже, глючит, когда в документе есть таблицы, поэтому исходные данные работают лучше для меня.

ответ

1

Да, вы можете переформатировать PDF так, чтобы содержимое возвращалось сверху вниз. Это не то, что можно легко сделать с помощью Adobe Acrobat или любого другого зрителя, о котором я знаю, и вот почему.

Из документации pdftotext, то -raw вариант определяется как

Держите текст контента для того потока. Это хак, который часто отменяет форматирование столбцов и т. Д. Использование режима raw больше не рекомендуется.

«поток потока контента» является важной частью описания.

В PDF-файлах содержимое на странице не должно быть записано в потоке содержимого (инструкции, которые интерпретируются для отображения страницы) в том порядке, в котором человек будет читать контент при визуализации страницы. Внутренности PDF-файлов не заботятся о заказе, они были предназначены для воспроизведения той же визуализации документа на различных платформах. Поскольку все, что имеет значение для PDF, - это визуализация, приложения или библиотеки, которые пишут PDF, как правило, не упорядочивают поток контента каким-либо значимым образом.

Таким образом, вы можете изменить порядок инструкций в потоке контента, чтобы они были в порядке, в котором человек мог их прочитать, выполнить непростую задачу вручную и использовать библиотеку, которая понимает PDF для управления потоком контента, будет быть одним из способов сделать это. Другой способ - найти более продвинутый инструмент для извлечения текста из PDF (существует ряд инструментов, которые будут рассматривать размещение содержимого на странице, а не только там, где оно появляется в потоке содержимого).

Я не знаю ничего, что изменит порядок содержимого потока в формате PDF на основе того, где содержимое отображается на странице автоматически.

+0

Знаете ли вы о каком-либо конкретном инструменте, который извлекает PDF-текст на основе размещения контента? – eatorres

+0

Есть ряд инструментов, которые сделают это, там могут быть даже некоторые бесплатные. Это зависит от того, какой тип инструмента вы ищете и как он вписывается в более крупный проект, над которым вы работаете. Я работаю в компании, которая делает библиотеки PDF для разработчиков интегрированными в свои приложения, а наши библиотеки предлагают возможность извлекать текст на основе размещения. Есть еще несколько продвинутых из компаний, которые сосредоточены на этой теме, однако, Abbyy (https://www.abbyy.com/en-us/) может быть хорошим местом для начала. –

Смежные вопросы