Предположим, что мой пользователь пошел к сканеру в своем офисе. Сканер способен генерировать PDF отсканированного документа. Это, по сути, тип файла, который у меня есть.Извлечь текст из изображения в PDF
Что я хочу сделать, это извлечь текст из этого PDF-файла. Это не «первое поколение» pdf в том смысле, что текст не встроен в pdf. Текст встроен в изображение, которое находится в формате PDF.
Есть ли функциональность в iText PDFBox, которая позволяет извлекать эти данные? Я стараюсь избегать делать OCR на изображении, если это возможно. Я надеялся, что в IText или PDFBox есть что-то, что делает это.
Обратите внимание, что я не говорю об извлечении «нормальный» текст формирования PDF, как описано здесь: How to get raw text from pdf file using java
Ваш вопрос может быть понятнее, если вы полностью удалили упоминание pdf. По сути, вы хотите читать текст с изображения, если я читаю это правильно. – cadams
Вы хотите сделать OCR, не делая OCR. PDFBox и iText могут извлекать только текст, который хранится в виде векторных данных. Вы хотите получить текст, состоящий из пикселей в растровом изображении. Это OCR. Ни PDFBox, ни iText не поддерживают OCR. –
@cadams Да, но в формате PDF. Я не хочу преобразовывать его в изображение. Это нужно сделать в самом PDF-файле. – user489041