2013-08-13 2 views
0

Как извлечь текст из PDF-документа в .NET? Кроме того, как я могу получить координаты каждого слова на странице? Могу ли я сделать это с помощью iTextSharp или другого компонента?Как извлечь текстовые и текстовые координаты из pdf?

+0

iTextSharp - это возможность, но извлечение PDF, как правило, не так просто, как можно было бы подумать, потому что тексты внутри pdf не всегда в порядке, который можно было бы ожидать. – citykid

+0

Спасибо Citykid.we не ожидал в том же порядке. У вас есть образец кода или документ с помощью iTextSharp? – vinodh

+0

Возможно ли это с помощью PDFbox? – vinodh

ответ

-1

Задача может быть легко выполнена с помощью Docotic.Pdf library.

Ниже приведен код, который записывает все слова с их координатами в системную консоль, а также рисует прямоугольник вокруг каждого найденного слова.

public static void extractAndDrawWordBounds(string inputFileName, string outputFileName) 
{ 
    using (PdfDocument pdf = new PdfDocument(inputFileName)) 
    { 
     PdfPage page = pdf.Pages[0]; 
     foreach (PdfTextData data in page.GetWords()) 
     { 
      System.Console.WriteLine(data.ToString()); 
      page.Canvas.DrawRectangle(data.Bounds); 
     } 

     pdf.Save(outputFileName); 
    } 

    System.Diagnostics.Process.Start(outputFileName); 
} 

Кроме того, библиотека может извлекать отформатированный текст (PdfPage.GetTextWithFormatting метод) или даже отдельные символы (PdfPage.GetChars метод)

Отказ от ответственности: Я один из разработчиков библиотеки.

+0

Спасибо большое mkl. Я хочу извлечь текстовые и текстовые координаты из текста pdf с помощью iTextSharp. в приведенной ниже ссылке я загрузил текст pdf.for что pdf может любой, кто может найти координаты слов? я понятия не имел об itextsharp https://docs.google.com/file/d/0B_nzYHWVJJ7KQ0dPLWdyS2FBWUk/edit?usp=sharing – vinodh

+0

Большое спасибо Bobrovsky – vinodh

+0

Вышеупомянутая библиотека pdf бесплатна или лицензирована? – vinodh

-3

Попробуйте PDFLib TET

это лучший инструмент, который я нашел, чтобы это сделать, но это не бесплатно (и это не дешево в любом случае).

+0

Большое спасибо. Я хочу извлечь текстовые и текстовые координаты из текста pdf с помощью iTextSharp. в приведенной ниже ссылке я загрузил текст pdf.for что pdf может любой, кто может найти координаты слов? я понятия не имел об itextsharp https://docs.google.com/file/d/0B_nzYHWVJJ7KQ0dPLWdyS2FBWUk/edit?usp=sharing – vinodh

Смежные вопросы