Я ищу библиотеку, которая может открывать файлы ppt, pptx, doc, docx, анализировать ее и извлекать из нее все объекты.Ищет библиотеку для разбора и извлечения объектов из файлов ppt, pptx, doc, docx
например, в ppt он может извлекать все свойства объекта, такие как изображения, текст, таблицы autoshapes и т. Д., Затем предоставить мне местоположение/размер и форматирование объекта, такие как размер шрифта/цвет/полужирный и т. Д., А для изображений - способность для сохранения каждого изображения в файл jpg. Библиотека также должна иметь возможность сделать снимок всего слайда.
Я пробовал aspose для этого, но это было неточно в получении этой информации. не извлекает все свойства плюс его экспорт, поскольку изображение неточно. Есть ли идеи в использовании открытой офисной библиотеки для этого?
Я открыт для использования Java или библиотеки C++.
спасибо alot craftand за помощь вы можете указать простой пример для извлечения изображений из файла ppt/pptx, мне нужно сравнить извлеченные изображения с теми, которые я получил от aspose, чтобы принять решение о переключении на открытый офис Заранее спасибо – mmohab
Вы можете использовать Apache Tika в качестве полного решения. Другая хорошая библиотека - [RawText] (https://rawtext.ambar.cloud/), так как она может выполнять OCR по изображениям. Он несвободен и работает над REST API. – SochiX