2009-04-22 2 views
2

Я хочу, чтобы прочитать содержимое следующих типов файлов с помощью C#:содержание Чтение файлов с использованием C#

  1. RTF
  2. PDF
  3. HTML
  4. MS Word

есть ли общий API в .Net для чтения всего содержимого типа файла?

+0

Определить 'чтение' – jfclavette

+0

, открыв файл и прочитав его содержимое –

ответ

2

Нет встроенной поддержки для чтения большинства этих типов файлов. HTML - это простой текст, поэтому вы можете использовать System.IO/StreamReader для его чтения, но вы должны сами проанализировать его.

Содержит компоненты третьей стороны, которые будут считывать эти типы файлов, но я не уверен, есть ли какой-либо компонент, охватывающий все компоненты.

Для PDF-файлов, я считаю, iTextSharp позволяет вам читать.

Для RTF/Word, Вы можете использовать Primary Interop Assemblies

0

Если вы собираетесь полнотекстовой индекс данных, смотрите в использовании Lucene, он может обрабатывать эти типы файлов.

1

Я использовал Aspose, прежде чем он станет очень мощным продуктом, это разумно дорого, поэтому рекомендуем только его, если вашему приложению также необходимо создать новые документы word/pdf/rtf.

Я согласен с другими комментариями только по использованию System.IO для чтения файлов HTML.

Смежные вопросы