Да, вы можете переформатировать PDF так, чтобы содержимое возвращалось сверху вниз. Это не то, что можно легко сделать с помощью Adobe Acrobat или любого другого зрителя, о котором я знаю, и вот почему.
Из документации pdftotext, то -raw вариант определяется как
Держите текст контента для того потока. Это хак, который часто отменяет форматирование столбцов и т. Д. Использование режима raw больше не рекомендуется.
«поток потока контента» является важной частью описания.
В PDF-файлах содержимое на странице не должно быть записано в потоке содержимого (инструкции, которые интерпретируются для отображения страницы) в том порядке, в котором человек будет читать контент при визуализации страницы. Внутренности PDF-файлов не заботятся о заказе, они были предназначены для воспроизведения той же визуализации документа на различных платформах. Поскольку все, что имеет значение для PDF, - это визуализация, приложения или библиотеки, которые пишут PDF, как правило, не упорядочивают поток контента каким-либо значимым образом.
Таким образом, вы можете изменить порядок инструкций в потоке контента, чтобы они были в порядке, в котором человек мог их прочитать, выполнить непростую задачу вручную и использовать библиотеку, которая понимает PDF для управления потоком контента, будет быть одним из способов сделать это. Другой способ - найти более продвинутый инструмент для извлечения текста из PDF (существует ряд инструментов, которые будут рассматривать размещение содержимого на странице, а не только там, где оно появляется в потоке содержимого).
Я не знаю ничего, что изменит порядок содержимого потока в формате PDF на основе того, где содержимое отображается на странице автоматически.
Знаете ли вы о каком-либо конкретном инструменте, который извлекает PDF-текст на основе размещения контента? – eatorres
Есть ряд инструментов, которые сделают это, там могут быть даже некоторые бесплатные. Это зависит от того, какой тип инструмента вы ищете и как он вписывается в более крупный проект, над которым вы работаете. Я работаю в компании, которая делает библиотеки PDF для разработчиков интегрированными в свои приложения, а наши библиотеки предлагают возможность извлекать текст на основе размещения. Есть еще несколько продвинутых из компаний, которые сосредоточены на этой теме, однако, Abbyy (https://www.abbyy.com/en-us/) может быть хорошим местом для начала. –