2012-02-27 3 views
0

Я обнаружил, что существует множество инструментов для разбиения больших файлов PDF на более мелкие, разбив исходный файл PDF PAGE WISE. Например, если у меня есть 10-страничный PDF-документ, тогда мы сможем разбить исходный pdf-файл файл на 10 штук в разметке страницы.Можно ли разбить файл PDF меньше, чем разбить страницу?

Но я хочу такой же инструмент, который разбивает файл PDF меньше, чем разметка страницы. Это означает, что мне нужно разделить PDF-страницу на разные документы на основе любых параметров, таких как абзац, раздел, элемент ...

, например,
Если мой файл PDF с 2 страниц с 10 пунктами, то я хотел бы разделить файл в формате PDF в 10 отдельный файл Pdf на основе параметра п ...

Кроме того, я твердо убежден в формате PDF делает не содержат никакой структуры, такой как Open XML. Но я также подозреваю


Как инструменты могут разбивать pdf-файлы на небольшие pdf-файлы, разбивая страницы на мультика?
Какой механизм они используют для разметки файла PDF?

Итак, Есть ли способ сделать свою работу? Пожалуйста, дайте мне свое ценное предложение по этому поводу?

ответ

2

PDF - это векторный документ описания документа. Он основан на странице, поэтому каждая страница не зависит от следующей. Таким образом, раздвоение страницы очень просто. В отличие от растрового изображения, в котором вы можете извлекать небольшие подмножества независимо в pdf, вы должны отобразить всю страницу, чтобы узнать, как выглядит небольшое подмножество.

Скажите, что у вас есть страница (черный), которая содержит объект сложной формы (здесь это строка, но это может быть любой текст, форма, изображение и т. Д.), И вы хотите извлечь подмножество (красное). Вы должны сначала найти все объекты, которые производят видимый результат в интересующей области. Затем вам придется их модифицировать, чтобы они отображались правильно (в этом случае вычисляйте зеленые точки из синих точек при сохранении формы объекта).

Complex shape on a page

Более простой подход будет включать в себя всю страницу и клип область просмотра с размерами области.

Вы можете сделать это с помощью pdfjam. Проверьте команду --trim/--offset/--delta в сочетании с нестандартным размером бумаги (пример 6,7 на веб-сайте pdfjam). Вы все равно должны были бы как-то вычислить координаты интересующей области.

Смежные вопросы