2015-04-21 4 views
0

Я использовал этот код для извлечения определенных данных из PDF, как сохранить его в виде XML-файла.Экспорт конкретных данных из PDF в XML

private string ParseCodeText(string sourceStr) 
{ 
string pattern = @"\(\d{3}\)\s\d\s\d{8}\s\d{10}\s\d"; 
string extractedCode = System.Text.RegularExpressions.Regex.Match(sourceStr, pattern).Value; 
return extractedCode; 
} 

формат XML файла:

<?xml version="1.0" encoding="UTF-8"?> 

-<Files_table> 


-<Files> 

<File_name>Filename1</File_name> 

<Page>1</Page> 

<code>(00) 123 456</code> 

<Printed>Y</Printed> 

</Files> 


-<Files> 

<File_name>Filename1</File_name> 

<Page>2</Page> 

<code>(00) 456 789</code> 

<Printed>N</Printed> 

</Files> 

</Files_table> 
+1

Как вы хотите, чтобы получившийся xml выглядел? – Stephan

+0

- - имя_файла1 (00) 123 456 У - имя_файла1 (00) 456 789 N dumbCoder

+0

На самом деле я не получил часть экстракта данных. Эти вопросы не имеют отношения к PDF и относятся к XML. –

ответ

0

Ну абстрактный ответ: создавать объекты данных (что-то вроде этого):

public class FilterTable 
    { 
     public MyFile[] Files { get; set; } 
    } 

    public class MyFile 
    { 
     public string FileName { get; set; } 
     public int Page { get; set; } 
     public string Code { get; set; } 
     public string Printed { get; set; } 
    } 

Заполните их с данными

И используйте серию данных XMLSerializer.

Вам нужно будет установить некоторые атрибуты, чтобы получить правильное именование.