2013-07-16 2 views
1

Я пытаюсь найти способ разобрать текст текстового документа в строку в моем проекте. У меня есть более 600 файлов слов (.doc), которые мне нужны для получения текстовое содержимое (с новыми строками и вкладками, если возможно) и назначьте его строке для каждого из них.Как разобрать текст из документа MS Word в строку

Я читал материал об Open XML SDK, но он выглядит довольно сложным для того, что выглядит так просто.

+0

'.doc' или' .docx'? '.doc' - это формат MS Word 2003 и ранее - я не верю, что они являются документами XML, такими как .docx' – crush

+0

все файлы находятся в формате .doc – mathinvalidnik

ответ

0

Вы могли бы взглянуть на NPOI:

Этот проект является версией .NET проекта POI Java на http://poi.apache.org/. POI - проект с открытым исходным кодом, который может помочь вы читаете/записываете файлы xls, doc, ppt. Он имеет широкое применение.

Посмотрите на this предыдущий SO поток для получения дополнительной информации.

+0

Как я точно ссылаюсь на этот проект в своем решении? – mathinvalidnik

+0

@mathinvalidnik: Обычно вы загружаете необходимые файлы DLL и включаете их в свои ссылки. Кроме того, вы можете получить аддон для визуальной студии (NuGet), чтобы сделать это для вас, предполагая, что эти библиотеки DLL находятся в своих хранилищах. – npinti

+0

Я действительно не знаю, какие из них выбрать и как их использовать позже (классы Instatiate, используя их методы и т. Д.). – mathinvalidnik

3

Open XML SDK предназначен только для 2007 и более новых форматов, и его нетривиально использовать.

Если производительность не является проблемой, вы можете использовать Word Automation и заставить Word сделать это за вас. Это будет выглядеть примерно так:

var app = new Application(); 
var doc = app.Documents.Open(documentLocation); 

string rangeText = doc.Range().Text; 

doc.Save(); 
doc.Close(); 

Marshal.ReleaseComObject(doc);  
Marshal.ReleaseComObject(app); 

Посмотрите на http://www.codeproject.com/Articles/18703/Word-2007-Automation или http://www.codeproject.com/Articles/21247/Word-Automation для более полных примеров и инструкций. Обратите внимание, что это может стать несколько более сложным, если ваши документы перемещаются сложными (сноски, текстовые поля, таблицы ...).

Другой вариант - это слово сохранить документ как текст, а затем прочитать текстовый файл. Взгляните на это - http://msdn.microsoft.com/en-us/library/microsoft.office.tools.word.document.saveas(v=vs.80).aspx

Смежные вопросы