У меня есть отсканированный PDF-документ, который был OCRed, и теперь у него есть двойной слой отсканированного изображения и над ним текст.Tika дублирует текст при использовании с Tesseract на OCR PDF
Если я использую Tika со встроенным Tesseract для извлечения текста из этого PDF, я получаю дубликат текста: один из текста OCRed, а другой - из OCRing изображения Tesseract.
В этом случае мне нужен текст OCRed.
Я не могу просто отключить Tesseract, потому что там могут быть файлы PDF, содержащие только изображения или PDF-файлы, содержащие текст и изображения.
Тессеракт интегрирован в Тике, как в Apache Tika extract scanned PDF files
Есть ли способ сказать Тик не использовать Tesseract для изображений внутри PDF, которые имеют OCR текст над ними?
Извините, если это похоже на объявление, но вы можете использовать Ambar, чтобы избежать проблем с OCR от Tika. Мы прилагаем все усилия, чтобы сделать его гладким. – SochiX