Как извлечь текст из PDF-документа в .NET? Кроме того, как я могу получить координаты каждого слова на странице? Могу ли я сделать это с помощью iTextSharp или другого компонента?Как извлечь текстовые и текстовые координаты из pdf?
ответ
Задача может быть легко выполнена с помощью Docotic.Pdf library.
Ниже приведен код, который записывает все слова с их координатами в системную консоль, а также рисует прямоугольник вокруг каждого найденного слова.
public static void extractAndDrawWordBounds(string inputFileName, string outputFileName)
{
using (PdfDocument pdf = new PdfDocument(inputFileName))
{
PdfPage page = pdf.Pages[0];
foreach (PdfTextData data in page.GetWords())
{
System.Console.WriteLine(data.ToString());
page.Canvas.DrawRectangle(data.Bounds);
}
pdf.Save(outputFileName);
}
System.Diagnostics.Process.Start(outputFileName);
}
Кроме того, библиотека может извлекать отформатированный текст (PdfPage.GetTextWithFormatting метод) или даже отдельные символы (PdfPage.GetChars метод)
Отказ от ответственности: Я один из разработчиков библиотеки.
Спасибо большое mkl. Я хочу извлечь текстовые и текстовые координаты из текста pdf с помощью iTextSharp. в приведенной ниже ссылке я загрузил текст pdf.for что pdf может любой, кто может найти координаты слов? я понятия не имел об itextsharp https://docs.google.com/file/d/0B_nzYHWVJJ7KQ0dPLWdyS2FBWUk/edit?usp=sharing – vinodh
Большое спасибо Bobrovsky – vinodh
Вышеупомянутая библиотека pdf бесплатна или лицензирована? – vinodh
Попробуйте PDFLib TET
это лучший инструмент, который я нашел, чтобы это сделать, но это не бесплатно (и это не дешево в любом случае).
Большое спасибо. Я хочу извлечь текстовые и текстовые координаты из текста pdf с помощью iTextSharp. в приведенной ниже ссылке я загрузил текст pdf.for что pdf может любой, кто может найти координаты слов? я понятия не имел об itextsharp https://docs.google.com/file/d/0B_nzYHWVJJ7KQ0dPLWdyS2FBWUk/edit?usp=sharing – vinodh
- 1. получить текстовые координаты из pdf на iphone
- 2. Извлечь текстовые блоки из файла
- 3. Как извлечь текстовые координаты в изображении с помощью tess4j
- 4. Извлечь конкретные текстовые строки?
- 5. Как извлечь текстовые строки из ячейки
- 6. Получить текстовые координаты, используя палочку и подпись
- 7. Извлечь определенные текстовые строки из вывода R
- 8. Извлечь данные из gridview в текстовые поля
- 9. Как извлечь текстовые данные с веб-страницы?
- 10. Текстовые координаты Android TextView на экране
- 11. Как открыть текстовые и текстовые файлы в новом окне/вкладке?
- 12. Как извлечь текстовые смайлики из строки в android
- 13. Автоматически подключать текстовые поля в PDF
- 14. Как извлечь текстовые данные между узлами из файла XML?
- 15. Соединить гиперссылок и текстовые поля
- 16. Извлечь текстовые файлы в приложении iOS
- 17. Извлечь текстовые данные xhtml в php (regex)?
- 18. Текстовые тени и масштабирование
- 19. Клавиатура и текстовые поля
- 20. PDFMiner - Получить текстовые строки
- 21. AWT и текстовые поля
- 22. Метеор и текстовые поля
- 23. текстовые поля и PHP
- 24. Как сравнить текстовые файлы?
- 25. Массивы и текстовые файлы
- 26. Текстовые области и гиперссылки?
- 27. Извлечь текстовые данные из документа с помощью Apache Tika
- 28. Текстовые поля WPF и текстовые блоки не отображаются
- 29. Извлечь все текстовые поля из отдельных узлов в XML
- 30. Сделайте текстовые поля и текстовые поля более длинными
iTextSharp - это возможность, но извлечение PDF, как правило, не так просто, как можно было бы подумать, потому что тексты внутри pdf не всегда в порядке, который можно было бы ожидать. – citykid
Спасибо Citykid.we не ожидал в том же порядке. У вас есть образец кода или документ с помощью iTextSharp? – vinodh
Возможно ли это с помощью PDFbox? – vinodh