Есть ли бесплатная библиотека Java для извлечения текста из PDF, совместимого с Google Application Engine?Извлечь текст из PDF (движок Google)
Я читал о PDFJet, но он не может читать PDF, не так ли?
Может ли быть другой способ, как извлечь текст из PDF? Я пробовал http://www.pdfdownload.org/, к сожалению, они не обрабатывают неанглийские символы правильно.
iText использует определенные классы (например, java.awt.AffineTransform), которые недоступны в GAE. См. Эту страницу для получения дополнительной информации: http://groups.google.com/group/google-appengine-java/web/will-it-play-in-app-engine –
hmmm. Библиотека парсера, конечно же, не использует AffineTransform (я фактически реализовал собственные преобразования матрицы для синтаксического анализатора).Я знаю, что iText * поддерживает * аффинные преобразования при создании файлов PDF, но я сомневаюсь, что это необходимо для синтаксического анализа. Отправьте класс и метод, который дает вам проблемы с использованием этого с движком приложения, и я посмотрю. –
Я только что использовал iText в среде GAE =) – rsalmeidafl