2017-02-10 2 views
0

Я пытаюсь извлечь текст из pdf-файлов. Но в некоторых случаях файл pdf - это отсканированные копии жестких документов.Как определить, проверен ли PDF документ с использованием анализатора Tika/Java

Есть ли способ, который я могу найти, будет ли данный PDF сканированный экземпляр документов или нормальный файл pdf.

ответ

0

Возможный дубликат: Check if a PDF file is a scanned one?

Независимо - последние версии Тика можно дополнительно использовать Tesseract to OCR изображений перед попыткой извлечения содержимого - если вы используете это и хотят знать, как документ был разобран Тиком вы можете проверить метаданные: PDFParser добавляет org.apache.tika.parser.ocr.TesseractOCRParser к X-Parsed-By метаданных в дополнение к обычному org.apache.tika.parser.pdf.PDFParser.

Если вы пытаетесь решить, следует ли выполнять собственную обработку OCR перед запуском Tika, вам, вероятно, потребуется предварительно обработать PDF (например, pdfimages/какой-либо другой инструмент командной строки или решение на основе PDFBox), чтобы определить, он содержит только полностраничные изображения (или меньшие изображения, которые покрывают страницу) без текстовых операторов, а затем, возможно, попытаться их классифицировать, чтобы узнать, нужно ли им OCRing.

Смежные вопросы