2008-12-03 5 views
2

У меня есть документы PDF со сканера. Этот PDF-файл содержит формы, заполненные и подписанные сотрудниками в течение нескольких дней. Я хочу поместить штрих-код или стандартную область текста OCR для каждого типа формы, чтобы пакетное сканирование можно было программно разбить на отдельный PDF-документ на основе типа формы.Программно разрывать PDF-файл, созданный сканером, в отдельные документы PDF

Я хотел бы сделать это в Microsoft .NET 2.0

я могу купить требуется Adobe или другие пространств имен/DLL необходимости выполнить задачу, если есть в распоряжении нет открытого источника имен/DLL файлов.

ответ

2

Не является бесплатным или открытым исходным кодом, но вы также можете посмотреть ABCPdf by webSuperGoo как еще одну альтернативу Adobe.

1

Вы можете исследовать библиотеку iTextSharp, которая может разбивать файлы PDF. Но это не очень хорошо для чтения фактических PDF-файлов. Поэтому я понятия не имею, как это будет знать, где их разделить.

Есть компании, которые уже делают это за вас. Вы можете исследовать компанию kwiktag.

1

iTextSharp поможет вам разбить, собрать и применить штрих-коды к pdf-файлам на языках .NET. Я не думаю, что это может OCR документ, но я havent посмотрел (я использовал Abby fine Reader engine).

1

Из названия вашего вопроса я предполагаю, что вам просто нужно разрывать PDF-файлы и что они уже OCR'd. Существует несколько библиотек .NET PDF с открытым исходным кодом. Я успешно использовал PDFSharp в собственном проекте.

Вот краткий отрывок, который показывает, как отбирать из каждой страницы из PDF документа с помощью PDFsharp:

string filePath = @"c:\file.pdf"; 

using (PdfDocument ipdf = PdfReader.Open(filePath, PdfDocumentOpenMode.ReadOnly)) 
{ 
    int i = 1; 
    foreach (PdfPage page in ipdf.Pages) 
    { 
     using (PdfDocument opdf = new PdfDocument()) 
     { 
      opdf.Version = ipdf.Version; 
      opdf.AddPage(page); 

      opdf.Save("page " + i++ + ".pdf"); 
     } 
    } 
} 

Если предположить также, что вам необходимо получить доступ к тексту в документе для группировки можно использовать PdfPage .Contents свойство.

0

ЗАКАНЧИВАТЬ Tesseract .NET wrapper (v 2.04.0) вокруг C++ OCr двигателя с тем же именем, разработанный л.с. в конце 90-х лет, он получил награду за его изобретательность

Смежные вопросы