2012-05-03 5 views
4

У меня есть требование разделить большой PDF-документ на более мелкие файлы на основе содержимого файла. Мы используем BCL easyPDF для управления файлами PDF. easyPDF может разбивать pdf-документы на основе номера страницы, но не может разделить документ на основе содержимого файла. Кроме того, у него нет функции поиска (насколько я могу судить, если я ошибаюсь, пожалуйста, сообщите мне об этом.), Чтобы определить местоположение содержимого.Parsing pdf files

Теперь может кто-то сказать мне, как я могу найти расположение текста в pdf-файле, используя .net?

Thanks

+2

Да, но это должно быть/сообщество, где мы можем помочь людям, которые могут все еще изучать язык и протокол. Мы можем попытаться указать их в правильном направлении. – Brian

+0

Не является ли PDF-файл двоичным файлом? Вы не можете просто анализировать его как текст. Требуется библиотека – Alex

ответ

1

Вам нужна библиотека ОФП в .NET, такие как iText.Net.

1

Вы можете попробовать Docotic.Pdf library для своей задачи.

Библиотека может получить коллекцию words with their bounding rectangles from PDFs. Это должно помочь вам найти местоположение текста в файле.

Библиотека также может использоваться для extract text (with or without formatting).

Отказ от ответственности: Я работаю для поставщика библиотеки.