Возможный дубликат: Check if a PDF file is a scanned one?
Независимо - последние версии Тика можно дополнительно использовать Tesseract to OCR изображений перед попыткой извлечения содержимого - если вы используете это и хотят знать, как документ был разобран Тиком вы можете проверить метаданные: PDFParser добавляет org.apache.tika.parser.ocr.TesseractOCRParser
к X-Parsed-By
метаданных в дополнение к обычному org.apache.tika.parser.pdf.PDFParser
.
Если вы пытаетесь решить, следует ли выполнять собственную обработку OCR перед запуском Tika, вам, вероятно, потребуется предварительно обработать PDF (например, pdfimages/какой-либо другой инструмент командной строки или решение на основе PDFBox), чтобы определить, он содержит только полностраничные изображения (или меньшие изображения, которые покрывают страницу) без текстовых операторов, а затем, возможно, попытаться их классифицировать, чтобы узнать, нужно ли им OCRing.