Как Google Книги находят текстовые регионы?

Одна сложная тема в компьютерном зрении - обработка сканирования документов. Обычно это включает в себя несколько этапов, таких как удаление шума, анализ цвета, бинаризация, идентификация текстового блока, OCR, а затем, возможно, некоторый контекстный анализ и коррекция.Как Google Книги находят текстовые регионы?

Мне любопытно, понимает ли кто-либо, знает или может указать мне на литературу о том, как Google идентифицирует текстовые блоки до этапа OCR. Какие-нибудь идеи?

источник

2009-01-15 lzqjdkkhns

Это информация из вторых рук специалиста по оцифровке в моей библиотеке, но похоже, что подход Google заключается в том, чтобы просто бросить все через автоматизированный процесс, ocr все, что похоже на текст, и не слишком беспокоиться об обрезке отдельных изображений или делать много семантических аналогов, чтобы искать подписи к изображениям и т. д. Они могут делать тонкие вещи, которые не очевидны, но на поверхности они определенно стреляют по количеству по качеству, что разумно для них делать для своих целей, ИМО.

источник

2009-01-15 05:33:29 alxp

Я считаю, что Google использует двигатель Tesseract OCR в сочетании с другим инструментом под названием Ocropus, оба из которых являются с открытым исходным кодом. Я ничего не знаю о том, как они работают, но вы можете быть заинтересованы в проверке кода, доступного по вышеуказанным ссылкам.

источник

2009-05-25 00:44:39

Как Google Книги находят текстовые регионы?

ответ

Смежные вопросы