2012-03-02 2 views
3

Я начал простой проект, в котором он должен получить изображение, содержащее текст с верхними индексами, а затем с помощью OCR (в настоящее время я использую tesseract) он должен распознавать символы надстрочного символа + нормальные ,Признание символов верхнего уровня с использованием OCR

Чтобы было проще представить, например, у нас есть химическое уравнение, такое как Cl2 (2 - надстрочный индекс), но когда я использую ocr для его распознавания, он дает мне Cl2 (все в одной строке).

Итак, каково решение этой проблемы? Есть ли еще один API OCR, который имеет возможность читать верхние индексы?

Спасибо.

ответ

4

Очень хороший вопрос, который затрагивает более сложные функции любой системы распознавания.

Прежде всего, чтобы убедиться, что вы НЕ пропустите функциональность, даже если она существует в системе OCR. Не забудьте посмотреть на результат теста не в формате TXT, а на какой-то доступный для просмотра текст. Тетрадиеры TXT, такие как «Блокнот» в Windows, часто не поддерживают символы надстрочного/подстрочного алфавитов, поэтому даже если OCR должно было дать вам правильные символы, ваш зритель мог бы преобразовать его, чтобы отобразить его. Если вы получаете доступ к текстовому результату программно, это меньше проблема, потому что вы должны получить правильное значение символа подписи при обращении к нему напрямую. Просто отметьте, что зрители должны поддерживать его, чтобы вы действительно его видели. Если вы устранили это возможное преобразование после обработки и удостоверились, что индекс не будет возвращен из OCR, он, вероятно, не поддерживает его.

Как и в этом текстовом поле, в вашем исходном вопросе вы попытались дать нам пример символа надстрочного знака, но это текстовое поле не принимало его, даже если вы могли скопировать его/вставить в другое место.

Многие OCR будут видеть подстрочный индекс как любой другой нормальный символ, если они могут его увидеть вообще. OCR вашего использования должно иметь технические возможности для фактического создания надстрочных индексов/индексов, и многие из них, но они, как правило, не являются коммерческими системами распознавания текста.

Перед тем, как ответить на это письмо, я сделал небольшую пробную бумагу. Я сгенерировал изображение с несколькими примерами надстрочного/индексного для моего тестирования (конечно, EMC2 был первым примером, который пришел на ум :).
Вы можете найти мой тестовый файл здесь: www.ocr-it.com/documents/superscript_subscript_test_page.tif

И обработал изображение через OCR-IT OCR Cloud 2.0 API, используя настройки по умолчанию, но экспорт в богатый текстовый формат, например, .DOC MS Word.

Вы можете найти мой тестовый файл здесь: www.ocr-it.com/documents/superscript_subscript_test_page_result.doc

Также обратите внимание: Если вы заинтересованы, чтобы извлечь надстрочные/подстрочные символы, обратите отдельное внимание на ваше качество изображения, больше, чем вы бы с обычным текстом. Эти персонажи являются крошечными, и вам нужны подробные сведения и разрешение для достижения качества OCR спуска. Даже при просмотре с разрешением 300 точек на дюйм иногда возникают проблемы с маленькими символами из-за слишком большого количества пикселей. Если вы рассматриваете мобильные и цифровые камеры, это становится еще более важным.

РАСКРЫТИЕ: Моя специальность реализует внутренние решения OCR для компаний разного размера. Моя компания WiseTREND. Свяжитесь со мной напрямую, если я смогу помочь чему-нибудь еще.

+0

Я считаю, что ссылки, о которых вы упомянули, не работают прямо сейчас. Контента нет. Я хотел бы поговорить с вами по поводу этой проблемы, если вы можете предоставить мне пространство для подключения. –

+0

Арпит, да, ссылки были нарушены сверхурочно. Я попытаюсь восстановить, когда позволит время. Может быть, проще, если вы можете связаться со мной прямо в ilyae по адресу wisetrend dot com или 510 754 9866. Я постараюсь помочь с конкретной проблемой, с которой вы столкнулись. –