2017-02-20 6 views
0

У меня есть отсканированный PDF-документ, который был OCRed, и теперь у него есть двойной слой отсканированного изображения и над ним текст.Tika дублирует текст при использовании с Tesseract на OCR PDF

Если я использую Tika со встроенным Tesseract для извлечения текста из этого PDF, я получаю дубликат текста: один из текста OCRed, а другой - из OCRing изображения Tesseract.

В этом случае мне нужен текст OCRed.

Я не могу просто отключить Tesseract, потому что там могут быть файлы PDF, содержащие только изображения или PDF-файлы, содержащие текст и изображения.

Тессеракт интегрирован в Тике, как в Apache Tika extract scanned PDF files

Есть ли способ сказать Тик не использовать Tesseract для изображений внутри PDF, которые имеют OCR текст над ними?

+0

Извините, если это похоже на объявление, но вы можете использовать Ambar, чтобы избежать проблем с OCR от Tika. Мы прилагаем все усилия, чтобы сделать его гладким. – SochiX

ответ

0

У нас была аналогичная проблема, мы пытались сохранить простое условие if else, где мы передаем PDF-файл PDF по умолчанию, и если он становится пустым, мы вызываем с опцией tesseract в pdf.

+0

Мне нужно работать с PDF-файлами, которые могут содержать как текст, так и изображения, поэтому к сожалению, для меня это не сработает. – Wizeek

Смежные вопросы