Одна сложная тема в компьютерном зрении - обработка сканирования документов. Обычно это включает в себя несколько этапов, таких как удаление шума, анализ цвета, бинаризация, идентификация текстового блока, OCR, а затем, возможно, некоторый контекстный анализ и коррекция.Как Google Книги находят текстовые регионы?
Мне любопытно, понимает ли кто-либо, знает или может указать мне на литературу о том, как Google идентифицирует текстовые блоки до этапа OCR. Какие-нибудь идеи?