2011-01-21 2 views
2

Я ищу библиотеку, которая может открывать файлы ppt, pptx, doc, docx, анализировать ее и извлекать из нее все объекты.Ищет библиотеку для разбора и извлечения объектов из файлов ppt, pptx, doc, docx

например, в ppt он может извлекать все свойства объекта, такие как изображения, текст, таблицы autoshapes и т. Д., Затем предоставить мне местоположение/размер и форматирование объекта, такие как размер шрифта/цвет/полужирный и т. Д., А для изображений - способность для сохранения каждого изображения в файл jpg. Библиотека также должна иметь возможность сделать снимок всего слайда.

Я пробовал aspose для этого, но это было неточно в получении этой информации. не извлекает все свойства плюс его экспорт, поскольку изображение неточно. Есть ли идеи в использовании открытой офисной библиотеки для этого?

Я открыт для использования Java или библиотеки C++.

ответ

1

На работе мы использовали Java api openoffice для извлечения изображений из файлов ppt/pptx. Я использовал документы от here. Я уверен, что вы можете использовать информацию в этом руководстве, чтобы делать то, что вам нужно.

удачи.

+0

спасибо alot craftand за помощь вы можете указать простой пример для извлечения изображений из файла ppt/pptx, мне нужно сравнить извлеченные изображения с теми, которые я получил от aspose, чтобы принять решение о переключении на открытый офис Заранее спасибо – mmohab

+0

Вы можете использовать Apache Tika в качестве полного решения. Другая хорошая библиотека - [RawText] (https://rawtext.ambar.cloud/), так как она может выполнять OCR по изображениям. Он несвободен и работает над REST API. – SochiX

1

Один из вариантов - библиотека apache poi - есть примеры вокруг, и, похоже, больше материала, чем в API openoffice.

Смежные вопросы