2010-11-20 2 views
1

Возможно ли создать конкретный набор шрифтов из нижеприведенного изображения ?Создать шрифт из изображения текста

Моя идея заключается в том, чтобы генерировать определенный шрифт для данного изображения ниже текста, с помощью ручного выбора части изображений и отображений его к набору letter's.Generate шрифта для этого , а затем использовать этот шрифт, чтобы сделать его читаемым для OCR.Использование шрифта возможно с использованием любой версии с открытым исходным кодом ? Также вы можете предложить все хорошие OCR.

alt text

+0

@downvoter: поясните пожалуйста. – Emil

+0

Я бы подумал, что эти descenders на y и g будут путать большинство программ OCR. –

+0

@jcomeau_ictx: Вы использовали какое-либо хорошее OCR? – Emil

ответ

1

Abbyy FineReader 10 становится лучше, чем ожидалось, результаты, но предсказуемо запутывается, когда персонажи трогают.

Ваша проблема в том, что межстрочный интервал слишком мал. Опускатели каждой строки перекрывают ограничивающие символы символов в строке непосредственно ниже. Это делает почти невозможным сегментирование персонажа, поскольку персонажи касаются друг друга и перекрываются. Количество комбинаций перекрывающихся символов практически невозможно обучить. Символы «g» и «y» являются худшими нарушителями.

Двухстрочная версия этого варианта, вероятно, будет хорошо распознана.

Специальное решение, которое сегментирует и разделяет каждую строку вместе с хорошим словарем, несомненно, улучшит результаты. Тем не менее, все равно будут исправлены ошибки. Обычная процедура должна иметь дело с восходящими и спусками, и попытаться сегментировать изображение в строки, которые затем могут быть поданы на достойный движок OCR. Один из способов - проанализировать каждый символ на странице и выделить его в строке. Leptonica (www.leptonica.com - C Imaging Library), вероятно, облегчит эту работу.

Я бы не пробовал это без увеличения разрешения до 200 или 300 dpi.

С помощью этого пользовательского решения обучение шрифту становится опцией, если движок OCR выполняет плохую работу изначально.

Abbyy (www.abbyy.com) или Google Tesseract OCR 3.00 было бы хорошим местом для начала.

Никаких гарантий относительно того, все ли это будет работать. Это довольно сложная страница для OCR, и вам нужно решить, лучше ли ее печатать вручную за границей. Это зависит от количества страниц, которые необходимо обработать.

Смежные вопросы