Parsing pdf files

У меня есть требование разделить большой PDF-документ на более мелкие файлы на основе содержимого файла. Мы используем BCL easyPDF для управления файлами PDF. easyPDF может разбивать pdf-документы на основе номера страницы, но не может разделить документ на основе содержимого файла. Кроме того, у него нет функции поиска (насколько я могу судить, если я ошибаюсь, пожалуйста, сообщите мне об этом.), Чтобы определить местоположение содержимого.Parsing pdf files

Теперь может кто-то сказать мне, как я могу найти расположение текста в pdf-файле, используя .net?

Thanks

источник

2012-05-03 desi

Да, но это должно быть/сообщество, где мы можем помочь людям, которые могут все еще изучать язык и протокол. Мы можем попытаться указать их в правильном направлении. – Brian

Не является ли PDF-файл двоичным файлом? Вы не можете просто анализировать его как текст. Требуется библиотека – Alex

взгляните на этот вопрос. есть ссылки на некоторые библиотеки, которые могут удовлетворить ваши требования

How to programatically search a PDF document in c#

источник

2012-05-03 18:22:40 Brian

Вам нужна библиотека ОФП в .NET, такие как iText.Net.

источник

2012-05-03 18:23:55

Вы можете попробовать Docotic.Pdf library для своей задачи.

Библиотека может получить коллекцию words with their bounding rectangles from PDFs. Это должно помочь вам найти местоположение текста в файле.

Библиотека также может использоваться для extract text (with or without formatting).

Отказ от ответственности: Я работаю для поставщика библиотеки.

источник

2012-05-04 15:45:18 Bobrovsky

Parsing pdf files

ответ

Смежные вопросы