Я могу получить данные из страниц pdf в строке. Но наряду с этим также выводятся данные нижнего колонтитула. Я хочу удалить их со всех страниц pdf. Как я могу удалить, что я использовал Rectangle2D но координаты не давая ДАННЫЕИзвлечь данные нижнего колонтитула PDF в java
ответ
В комментарии ОР указал, что он использовал этот код:
PDDocument doc = PDDocument.load("xyz.pdf");
PDPage page = (PDPage)doc.getDocumentCatalog().getAllPages().get(1);
Rectangle2D region = new Rectangle2D.Double(10, 10, 10, 10);
String regionName = "region";
PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.addRegion(regionName, region);
stripper.extractRegions(page);
System.out.println("Region is "+ stripper.getTextForRegion("region"));
Для большинства документов этот код не будет извлекать никакого текста, потому что это выглядит в небольшой (10x10 pt) области в верхней левой области второй страницы документа. Таким образом, значения в new Rectangle2D.Double(10, 10, 10, 10)
должны измениться.
Я попытался с различными регионами, но я не получаю какой-либо текст, если у вас есть идея для нормальной Pdf страницы, вы должны поделиться
Там нет ничего, как обычной PDF страницы. Целью PDF является предоставление пользователям возможности легко и надежно обмениваться и просматривать электронные документы независимо от среды, в которой они были созданы, или среды, в которой они просматриваются или печатаются. Не существует серьезных ограничений на размер страницы или расположение контента на страницах.
E.g. для this form
вам нужны такие ценности, как эти
PDPage page = (PDPage)doc.getDocumentCatalog().getAllPages().get(0);
Rectangle2D region = new Rectangle2D.Float(0f, 230f, 612f, 300f);
, чтобы извлечь тело «Я разрешаю любой план медицинского ... Я получил копию этого разрешения.» без заголовков, нижних колонтитулов или линий формы.
Если у вас много похожих страниц (например, один большой документ со многими страницами с аналогичным расположением), вам нужно измерить, но один раз для многих страниц для извлечения.
- 1. Добавление нижнего колонтитула в существующий PDF
- 2. текст нижнего колонтитула перемещен из нижнего колонтитула
- 3. Добавление текста нижнего колонтитула SVG или PDF
- 4. Добавление нижнего колонтитула страницы в pdf с помощью itext
- 5. Преобразование Excel в pdf с изображением нижнего колонтитула
- 6. Wkhtmltopdf - набор шрифтов нижнего колонтитула
- 7. Как добавить изображение нижнего колонтитула в pdf в itext 5.3.5
- 8. Прокрутка таблицы нижнего колонтитула нижнего колонтитула и заголовка
- 9. Как правильно выровнять центр социального нижнего колонтитула и нижнего колонтитула?
- 10. Макет нижнего колонтитула 100% ширина и содержание до нижнего колонтитула
- 11. Липкий цвет нижнего колонтитула и нижнего колонтитула не меняется
- 12. Добавление нижнего колонтитула в pdf с помощью jsPDF
- 13. Получение даты в CSS и HTML для нижнего колонтитула PDF
- 14. Базовая установка нижнего колонтитула
- 15. Проблема нижнего колонтитула N2CMS
- 16. Изменение текста нижнего колонтитула
- 17. Выравнивание нижнего колонтитула
- 18. jqGrid текст нижнего колонтитула
- 19. Редактирование нижнего колонтитула Drupal
- 20. Перекрытие нижнего колонтитула IE7
- 21. Позиция нижнего колонтитула бутстрапа
- 22. Ошибка нижнего колонтитула
- 23. rdlc Функция нижнего колонтитула
- 24. Ширина нижнего колонтитула ListView
- 25. Изменение нижнего колонтитула
- 26. css переход нижнего колонтитула
- 27. Содержимое нижнего колонтитула Bootstrap
- 28. PHP: «Функция нижнего колонтитула»?
- 29. Содержимое перекрытия нижнего колонтитула
- 30. Позиция нижнего колонтитула постоянна
* Координаты не дают данных * - что это значит? – mkl
PDDocument doc = PDDocument.load ("xyz.pdf"); PDPage page = (PDPage) doc.getDocumentCatalog(). GetAllPages(). Get (1); Rectangle2D region = новый Rectangle2D.Double (10, 10, 10, 10); Строка regionName = "region"; PDFTextStripperByArea stripper = new PDFTextStripperByArea(); stripper.addRegion (regionName, region); stripper.extractRegions (страница); System.out.println («Region is» + stripper.getTextForRegion (region »)) Здесь я пытаюсь получить данные в соответствии с координатами, чтобы нижний колонтитул был удален –
Ну, я сомневаюсь, что область страницы, определенная' Rectangle2D.Double (10, 10, 10, 10) 'будет содержать много текста. Во многих документах эта область представляет собой небольшой пустой квадрат в левом нижнем углу страницы. – mkl