У меня есть pdf (или любые другие типы файлов, такие как .doc, .ppt и т. Д.), Которые содержат текст, а также изображения. Как я могу извлечь изображения из этих файлов с помощью Tika?Как извлечь изображения из файла с помощью Apache TIka?
Можно также запустить OCR на извлеченных изображениях с помощью Tess4j или любой другой библиотеки?
Это, как я называю Тика:
AutoDetectParser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler(writeLimit);
Metadata metadata = new Metadata();
InputStream stream = new FileInputStream("file.pdf");
parser.parse(stream, handler, metadata);
P.S. У меня есть tika-app.jar.
Как вы называете Apache Tika? Способ включения рекурсии и/или сохранения встроенных ресурсов зависит от того, как вы это называете (java, facade, tika-app, tika-server и т. Д.) – Gagravarr
@Gagravarr: Я отредактировал свое оригинальное сообщение, чтобы показать, как я называю Tika. –
Имеет ли пример [Извлечь встроенные файлы из модуля примеров Apache Tika] (https://svn.apache.org/repos/asf/tika/trunk/tika-example/src/main/java/org/apache/tika/ example/ExtractEmbeddedFiles.java), не так ли? – Gagravarr