Я разрабатываю приложение для Android, которое использует tesseract OCR (оптическое распознавание символов), и задавался вопросом, существует ли способ улучшения результатов для небольшого текста.Улучшение результатов Tesseract на Android
Я попытался перекомпилировать стандартный словарь с моими частыми и нормальными списками слов (используя wordlist2dawg) и не видел улучшения (я даже не могу сказать, помогает ли он!). Я также слышал, что можно изменить порог, при котором tesseract использует словарные слова, но я понятия не имею, как это сделать.
Если у кого-то есть представление о том, как я могу улучшить результаты, то tesseract дает мне, я был бы очень признателен!
Все хорошие предложения. Другое предложение - «исправить» проблему с небольшим текстом перед фактическим OCR. Изображение может быть увеличено или растянуто 2x или 3x в направлении x и y (пропорционально) для получения большего изображения с большим текстом, который многие OCR-движки могут читать лучше. Для этого требуется использовать некоторую библиотеку изображений, которая может «создавать» новые пиксели, а не переписывать dpi в заголовке изображения, но это относительно простая предварительная обработка. –