2012-03-22 3 views
-1

Я хочу извлечь содержимое файла MS Office с помощью C#. Например: я хочу открыть doc/docx/xls/xlsx/ppt/pptx и иметь возможность извлекать текст и информацию вроде (количество страниц - слово, количество листов - excel, количество слайдов - ppt, число графиков - excel, количество изображений - powerpoint и т. д. и т. д. и т. д.). Я понял, что могу извлечь текст, используя Windows iFilter. Но это только дает мне текст. Кто-нибудь знает DLL или что-то, что может дать мне такую ​​информацию? Если нет, есть ли сайт, который подробно объясняет скелет офисного xml-файла?Извлечение свойств MS Office

ответ

1

Для DOCX/XLSX/PPTX предложений MS бесплатную библиотеку под названием OpenXML SDK, которую вы можете использовать для достижения того, что вы просили ...

Для DOC/XLS/PPT (старше/двоичный) Я не знаю, свободной библиотеки - есть некоторые коммерческие библиотеки, которые поддерживают это:

Коммерческого библиотеки обычно предлагают очень богатый набор функций - например, экспорт в PDF ...

+0

это, возможно, является хорошим выбором. Вероятно, я мог бы программно изменить документ на docx, а затем вызвать OpenXML SDK. – nunoaac

Смежные вопросы