2010-12-06 3 views
1

Я искал (желательно Java-) библиотеку или инструмент командной строки для извлечения текстовых координат из pdf-файлов. Входные pdf-файлы содержат либо текст, либо изображения с окном-текстом позади.Библиотека/Инструмент для извлечения координат слова из pdf

My Use Case:
В веб-приложении Java я хотел бы использовать это, чтобы сделать подсветку и представить ее без дополнительного программного обеспечения (например, Adobe Reader и т. Д.). Вместо этого я хочу преобразовать соответствующие страницы в изображения и представить их на веб-странице.

+0

IText не будет делать PDF-файлы. Он может найти текст и координаты (в пределах таких вещей в PDF), но не может нарисовать ваши изображения для вас. – 2010-12-06 20:53:25

ответ

0

Вы можете использовать JPedal для создания эскизов (http://www.jpedal.org/pdf_thumbnail_tutorials.php) и извлечь текст (http://www.jpedal.org/support_egETAW.php)