Я хочу, чтобы прочитать содержимое следующих типов файлов с помощью C#:содержание Чтение файлов с использованием C#
- RTF
- HTML
- MS Word
есть ли общий API в .Net для чтения всего содержимого типа файла?
Я хочу, чтобы прочитать содержимое следующих типов файлов с помощью C#:содержание Чтение файлов с использованием C#
есть ли общий API в .Net для чтения всего содержимого типа файла?
Нет встроенной поддержки для чтения большинства этих типов файлов. HTML - это простой текст, поэтому вы можете использовать System.IO/StreamReader для его чтения, но вы должны сами проанализировать его.
Содержит компоненты третьей стороны, которые будут считывать эти типы файлов, но я не уверен, есть ли какой-либо компонент, охватывающий все компоненты.
Для PDF-файлов, я считаю, iTextSharp позволяет вам читать.
Для RTF/Word, Вы можете использовать Primary Interop Assemblies
Если вы собираетесь полнотекстовой индекс данных, смотрите в использовании Lucene, он может обрабатывать эти типы файлов.
Я использовал Aspose, прежде чем он станет очень мощным продуктом, это разумно дорого, поэтому рекомендуем только его, если вашему приложению также необходимо создать новые документы word/pdf/rtf.
Я согласен с другими комментариями только по использованию System.IO для чтения файлов HTML.
Определить 'чтение' – jfclavette
, открыв файл и прочитав его содержимое –