2013-07-01 3 views
1

У меня есть своеобразная проблема в том, что мне нужно извлечь информацию из файла слов. Скажем, например, у меня есть резюме и нужно извлечь name, email address, phone no., address, university, Experience и т.д.должны извлечь данные из файла слов

Каждый другой человек может испытывать свое резюме в другом format.So есть ли способ, с помощью которого я могу программно извлекать нужную мне информацию?

Мне нужна эта информация, чтобы заполнить форму для регистрации.

+0

вниз Voter..Please объяснить мне, почему вы даете минус 1. –

ответ

1

Конвертировать документ слова в html, с aspose .net.
Затем вы можете использовать регулярные выражения для поиска слов и/или документов PDF.
Или вы можете использовать HTMLAgilityPack для анализа созданных HTML-документов и поиска определенных разделов/путей.

PS:
Если у вас есть регулярное выражение для электронной почты, которое короче одной страницы, то регулярное выражение неверно.
Телефон должен быть управляемым, если вам нужно поддерживать только одну страну.
Что касается имени и адреса, удачи в этом.

Edit:
Как это

VB.NET:

Dim doc As New Aspose.Words.Document("filename.docORdocx") 
doc.Save("filename.html", Aspose.Words.SaveFormat.Html) 

C#:

Aspose.Words.Document doc = new Aspose.Words.Document("filename.docORdocx"); 
doc.Save("filename.html", Aspose.Words.SaveFormat.Html); 

Компонент здесь:
http://www.aspose.com/.net/word-component.aspx

Чтобы узнать действительный адрес электронной почты, чтения RFC 822:
http://www.faqs.org/rfcs/rfc822.html

+0

, как я могу преобразовать слово документ в html..I я стараюсь читать System.IO.StreamReader –

+0

@sangram Пармар: Добавлено :) –

1

Даже если сначала вы могли бы быть привлечены к идее использования COM Interop и Asp.net, не делайте этого.

http://support.microsoft.com/kb/257757

Тем не менее, это важно знать, какой вариант слова мы говорим. Новые форматы позволяют рассматривать их как zip, содержащие xml-файлы, и есть хорошие & бесплатные библиотеки.

http://docx.codeplex.com/

Смежные вопросы