2012-04-17 2 views
2

Я использую Tesseract, но я не знаю, пренебрегает ли он какой-либо нетекстовой областью и задает только текст. Нужно ли удалять любую нетекстовую область в качестве шага предварительной обработки для лучшего вывода?Затрагивает ли Tesseract любую нетекстовую область в отсканированном документе?

ответ

2

Tesseract имеет довольно хороший алгоритм для обнаружения текста, но в итоге он даст ложноположительные совпадения.

В идеале вы должны предварительно обработать изображение перед отправкой его в tesseract. Некоторое время назад я занимался подобной задачей, поэтому я предлагаю вам взглянуть на следующие материалы:

Смежные вопросы