Недавно я написал программу на Python, которая позволяла мне читать в PDF, выполнять некоторые команды от пользователя и выводить часть или весь исходный PDF-файл со страниц в разных порядках. Вы также можете выбрать страницы, которые вас интересовали. В то время для этого была отличная библиотека, PyPDF2. Он сделал все тяжелый подъем.PDF Parsing - Извлечение одной страницы
Теперь я работаю на другом языке (Haskell), который практически не поддерживает PDF, который я могу найти. Я рассматриваю возможность создания собственной личной библиотеки. Однако при просмотре содержимого файла PDF мне сложно определить, где находятся определенные страницы. Я могу сказать, сколько всего страниц в файле есть, но я не могу посмотреть на определенную часть файла и сказать: «Это страница X of Y.» Итак, как я могу выделить контент на основе страниц? Как я могу разделить файл на основе страниц, если я не знаю, на каком содержимом страницы?
Что вы хотите, чтобы ваш инструмент для этого не выполнял pdftk? –
* Я не могу посмотреть на определенную часть файла и сказать: «Это страница X of Y.» * - это сложно, так как большинство ресурсов, даже потоки контента, могут совместно использоваться несколькими страницами. Единственное, что принадлежит только странице, это словарь ** Page **. – mkl
Daniel - У меня есть программа, которая возьмет файл PDF с карточками и вернет новый PDF-файл с разделами, указанными пользователем, и где карточки будут рандомизированы. –