Не уверен, что это подходящее место для этого вопроса, но я не смог найти какой-либо другой совет.редактирование pdf через html
ответ
Извлечение текста. Поскольку mkl упоминается в комментариях, PDF может уже содержать слой текста (в цифровом виде или предварительно OCRed), или он может быть только для изображений PDF без текста (отсканированный или растрированный). Можно попытаться удалить существующее изъятие текста, но я даю ему мало шансов на успех, потому что PDF не имеет координатной информации для целей извлечения текста. Другими словами, очень просто программно извлечь ВСЕ существующий текст из PDF-файла, но трудно извлечь текст из определенной зоны или региона. По этой причине OCR часто используется, даже если текст уже существует внутри, поскольку OCR возвращает текст с очень подробной информацией о местоположении и регионе, которые могут быть сопоставлены с координатами изображения.
Подсветка в формате PDF. Я считаю, вам придется либо перестроить новый PDF с определенной выделенной областью, либо создать собственный PDF-подобный просмотрщик, который будет веселить изображение и координаты, текст и выделенную область. Я бы пошел на второй вариант создания собственного зрителя, потому что у вас есть дополнительные возможности контроля над функциональностью и пользовательским интерфейсом. Ваш зритель может взять PDF в качестве входных данных и создать измененный PDF в качестве вывода, но по мере работы с документом он не должен быть PDF-файлом, хотя он может вести себя как PDF с точки зрения пользователя, но с добавленной функциональностью для взаимодействия.
- 1. Редактирование PDF PDF
- 2. Редактирование HTML, затем публикация через PHP
- 3. Редактирование базы данных MySQL через опции HTML--?
- 4. Rails - Редактирование шаблона PDF
- 5. Редактирование Symfony2 PDF
- 6. Редактирование PDF в PHP?
- 7. Редактирование CSS через JS
- 8. Редактирование htaccess через php
- 9. Преобразование HTML в PDF и редактирование в iOS
- 10. HTML to PDF vs. Программируемое создание PDF через PHP
- 11. Редактирование pdf-файла Android Studio
- 12. Редактирование PDF с помощью MuPDF
- 13. Редактирование PDF с iPhone sdk
- 14. iText непрерывное редактирование PDF java
- 15. Редактирование существующих метаданных файла pdf
- 16. Пакетное редактирование PDF для распространения
- 17. Редактирование файла PDF с Java
- 18. конвертирование html в pdf через javascript
- 19. Преобразование HTML Div в PDF через JQuery
- 20. Показать счет через HTML-версию, чем PDF?
- 21. Редактирование элемента DOM/HTML
- 22. PDF в HTML через API или через ColdFusion?
- 23. Редактирование MailItem.RTFBody через кодирование
- 24. Редактирование ObservableDictionary через DataGrid
- 25. Редактирование кода через Интернет
- 26. Редактирование файлов csv через PHP
- 27. Редактирование HTML-страницы
- 28. Редактирование HTML и CSS
- 29. Редактирование нескольких файлов HTML
- 30. Редактирование HTML-слова Wordpress
Как в стороне, есть ли причина, по которой вы не считаете попытку извлечь текст из PDF перед OCR'ing? – mkl
В этом причина выбора пользователя. Однако это не объясняет, почему вы не хотите отправляться на извлечение текста из отмеченной области перед тем, как OCR его. – mkl
PDF - это формат, который уже может содержать информацию, текст которой присутствует где-то на странице PDF. Если ваши файлы PDF содержат эту информацию, OCR не требуется, и поэтому вы не получите ошибок OCR. Но, как упоминалось в моем первом комментарии, это только в сторону. – mkl