2009-04-08 5 views
1

привет, я только что попробовал компонент для OCR в .NET, и результаты были довольно неубедительными. Кто-нибудь еще был на этом пути раньше? можете ли вы, пожалуйста, порекомендовать путь для меня, чтобы сэкономить время оценки множества компонентов, которые не дают удовлетворительных результатов.OCR .NET Рекомендовано

любые рекомендации очень оценены. Я не хочу покупать или кодировать себя. что лучше всего работает и экономически выгодно.

благодаря

+0

дубликат: http://stackoverflow.com/questions/591574/ocr-in-net –

ответ

0

Вы пытались компонент MODI, который поставляется с офисом? Проверьте код this article в CodeProject.

1

В нашем проекте мы использовали Abby Fine Reader SDK. Он поставляется с COM-объектом, который вы можете использовать в своем приложении .Net. Успех двигателя достаточно хорош.

+0

То же самое для нас. API имеет некоторые подводные камни, но результаты действительно потрясающие. –

0

Компонент ABBYY довольно дорогой. Я оценил Pegasus ImagXpress и Atalasoft DotImage, и хотя я нашел DotImage более точным в полноэкранном OCR, некоторые небольшие части текста, которые трудно было распознать, были лучше прочитаны ImagXpress. Предлагаю вам попробовать демо-версии обоих и посмотреть, что подходит для ваших нужд.

0

Для получения информации об альтернативном двигателе см. https://stackoverflow.com/a/18070183/852208.

Возможно, ваша проблема точности связана с самой библиотекой. Однако это скорее источник изображения, с которым вы работаете. Рассмотрим следующий tips:

Текстуальные соображения

  • Стандартный OCR не должно быть предпринято на некоторых материалах. Например, в настоящее время OCR с настройками по умолчанию не следует делать
    в большинстве текстов, опубликованных до 1850 года. Для некоторых языков (например,
    German) дата отсечения может быть даже позже. Прежде чем пытаться создать
    транскрипции для этих материалов с помощью OCR, подробный анализ и
    Часто экспериментирование требуется, чтобы судить о компромиссах между обычаями
    OCR и варианты клавиатуры.
  • Старые и обесцвеченные документы должны быть сканированы в режиме RGB для захвата всех данных изображения и максимальной точности распознавания.
  • Низкоконтрастные документы могут привести к плохому распознаванию.
  • Показатель машинописи приводит к ухудшению качества распознавания текста, чем к напечатанному типу; непоследовательное использование шрифтов и размеров может снизить точность распознавания.
  • Размеры шрифта менее 6 пунктов в оригинале могут ограничить OCR, хотя увеличение разрешения на отсканированном изображении до 600 dpi и с использованием шкалы оттенков серого может улучшить выход OCR.
  • Рукописные документы не могут быть распознаны с какой-либо степенью точности.

соображения сканирования, которые влияют на точность распознавания текста включают в себя:

  • Рекомендованный лучшее разрешение сканирования для точности распознавания текста составляет 300 точек на дюйм. Более высокие разрешения не обязательно приводят к лучшей точности и могут замедлять время обработки OCR.Резолюции ниже 300 dpi могут повлиять на качество и точность результатов распознавания.
  • Настройки яркости, которые являются слишком высокими или слишком низкими, могут отрицательно повлиять на точность распознавания. Среднее значение яркости 50% будет подходит в большинстве случаев.
  • Прямолинейность первоначального сканирования может повлиять на качество распознавания; кривые линии текста дают плохие результаты.
  • Старые и обесцвеченные документы должны быть сканированы в режиме RGB для захвата всех данных изображения и максимальной точности распознавания.
  • Усовершенствования изображения, такие как регулировка контрастности и нерезкая маска, НЕ показали, что они значительно повышают точность OCR.