Я работаю над возможностью иметь приложение, которое может захватывать текст из PDF. Простой вариант использования может быть проинструктирован, как:Интерактивный API с PDF-документом
- Пользователь выбирает текст на PDF-документа (с помощью Acrobat Reader/или другого читателя PDF)
- Выбор завершено событие должно быть доступно для приложения .NET, который наблюдающей ,
- После выбора пользователь может выбрать, указать некоторые дополнительные свойства (например, категорию/уровень), и одна и та же информация помечена вместе с выбранным текстом внутри самого файла PDF.
- Выбранный текст следует сохранить выделенным цветом. Цвет будет отличаться в зависимости от других параметров (например, категории/уровня), выбранных в приложении .NET.
- Отдельное приложение должно анализировать и собирать эти данные из файла PDF.
Аналогичное приложение уже работает с файлами MS Word.
Edit:
Основное требование заключается в том, что там должно быть каким-то образом, чтобы уведомить приложение .NET, когда пользователь выбирает некоторый текст в PDF-документе. Другое требование состоит в том, что должен быть способ добавить тег к выбранному документу.
Может ли кто-нибудь предложить API/ресурс для таких реализаций?
вы пробовали какие-либо поиски Google для этого .. какой вид PDF .net инструменты вы используете? .. похоже, что вам придется писать собственные пользовательские классы просмотра PDF-файлов для захвата отдельного документа, который анализируется и редактируется. Также как вы собираетесь различать сохраненный PDF-файл и тот, который редактируется, а затем отменяется.? Я лично посмотрел бы на что-то вроде линии OCR. – MethodMan
В настоящее время я просматриваю документацию iText. Но не найдено никакой окончательной информации. Я ищу Google для этого. Это запрос для сбора информации из первых рук или опыта от других участников здесь. – Kangkan
О, я полностью понимаю это .. Мне было просто интересно, что некоторые вещи легче, чем другие, создавать и создавать с точки зрения кода. Держу пари, это можно сделать .. но, вероятно, это будет смотреть на то, как MS делает это со словом doc .. и просто поиграть с PDF-объектами на своем месте. Я не скажу, что это будет легко .. но я должен был это сделать один раз, когда я закодировал Delphi, создав PDF из QuickReports .. Я достиг своего задача, просматривая каждый класс Lib, который был у третьей стороны.и нашел то, в чем я нуждался в конечном итоге, не переубеждая ни одну из их Base – MethodMan