2015-08-18 4 views
-3

Предположим, что мой пользователь пошел к сканеру в своем офисе. Сканер способен генерировать PDF отсканированного документа. Это, по сути, тип файла, который у меня есть.Извлечь текст из изображения в PDF

Что я хочу сделать, это извлечь текст из этого PDF-файла. Это не «первое поколение» pdf в том смысле, что текст не встроен в pdf. Текст встроен в изображение, которое находится в формате PDF.

Есть ли функциональность в iText PDFBox, которая позволяет извлекать эти данные? Я стараюсь избегать делать OCR на изображении, если это возможно. Я надеялся, что в IText или PDFBox есть что-то, что делает это.

Обратите внимание, что я не говорю об извлечении «нормальный» текст формирования PDF, как описано здесь: How to get raw text from pdf file using java

+1

Ваш вопрос может быть понятнее, если вы полностью удалили упоминание pdf. По сути, вы хотите читать текст с изображения, если я читаю это правильно. – cadams

+2

Вы хотите сделать OCR, не делая OCR. PDFBox и iText могут извлекать только текст, который хранится в виде векторных данных. Вы хотите получить текст, состоящий из пикселей в растровом изображении. Это OCR. Ни PDFBox, ни iText не поддерживают OCR. –

+0

@cadams Да, но в формате PDF. Я не хочу преобразовывать его в изображение. Это нужно сделать в самом PDF-файле. – user489041

ответ

2

Хорошо, после того, как некоторые глядя вокруг, не кажется, что должен быть способ сделать это именно с iText или PDFBox, но похоже, что у PDFBox есть плагин для стороннего программного обеспечения, которое может выполнить то, что вам нужно. Если это интересно, ссылки: here и here, получены от here (от @TilmanHausherr).

+0

Удивительная, отличная работа! – user489041