2009-07-04 4 views
1

Я не хочу знать, что он говорит, и он не будет иметь дело ни с каким искажением, как CAPTCHA, я просто хочу знать, содержит ли пучок изображений любого текста.

Быстрое обнаружение символов

Это то, что будет работать на нескольких незанятых серверах Linux, а задание cron будет обрабатывать большую партию изображений несколько раз в день.

Одна из вещей, которые я хочу сделать в процессе, отбрасывает любые изображения с текстом в них. Я не возражаю против ложных срабатываний, но я хотел бы приблизиться к частоте отказов нулевого процента, когда дело доходит до идентификации изображений с текстом, который следует отбросить, насколько это возможно.

ответ

2

Tesseract-OCR - это то, что Google использует для Google Книги. Попробуйте.

+0

Это кажется немного тяжелым для того, что я ищу, я могу вернуться к нему, хотя, если я не смогу найти ничего более легкого. :) – joebert

Смежные вопросы