2010-12-04 2 views
1

Можно ли открыть любые форматы файлов с помощью Word, который поддерживает сам Microsoft Word?Чтение документов в .NET

Моя задача выглядит очень простой, мне нужно прочитать текст, только текст, из любых используемых документов (для сравнения документов на основе контента). Есть ли способ, которым я могу сделать это легче, чем вышеупомянутое Word Iterop? Есть ли бесплатные библиотеки для этого? Или открыть любые документы (.doc, .docx, .pdf, .rtf, openoffice docs и т. Д.)? Я занят поиском, но пока не нашел слишком много решений, и я не могу позволить себе изучать 800-страничные спецификации всех форматов.

P.S .: Обработка PDF отдельно в порядке, а также наличие библиотек для всех типов.

ответ

0

Я работаю над новой структурой под названием Toxy. Целью этого является извлечение данных/текста из разных документов, как то, что вы упомянули. Первый релиз будет выпущен в начале следующего года (возможно, февраль). Здесь можно найти некоторые варианты: https://github.com/tonyqus/toxy. Но пока это не готово.