2014-09-05 3 views
-4

Я пытаюсь создать приложение, которое делает редактируемый файл документа (документ или PDF) из изображения. Я планирую использовать tesseract для извлечения текста. Но я еще не уверен, как получить основное форматирование текста (размер, полужирный, курсив, подчеркивание) & изображений, которые могут присутствовать в изображении документа. Я планирую использовать J2EE для создания веб-приложения (нужно использовать J2EE). Я думаю, что мог бы распознать компоненты и форматировать документ с помощью OpenCV, но я не уверен.Преобразование изображения в Doc

ответ

1

Учитывая, что вы планируете использовать Tesseract для основных возможностей OCR, попробуйте посмотреть в формате форматированного hORC. Это включает в себя довольно много дополнительной информации о размере шрифта, шрифт лице, положение и т.д.

Вы можете найти описание hOCR здесь: https://docs.google.com/document/d/1QQnIQtvdAC_8n92-LhwPcjtAUFwBlzE8EWnKAxlgVf0/preview#heading=h.e903b9bca924

Если это не сработает, это зависит на сколько усилий вы хотите поместить в Tesseract. Это внутренние API-интерфейсы (доступные на Java через Tess4J, среди прочих) предоставляют большую часть информации, необходимой для восстановления макета страницы.