Версия 1 API Google Cloud Vision (бета) позволяет распознавать оптическое распознавание через запросы TEXT_DETECTION. Хотя качество распознавания хорошее, символы возвращаются без каких-либо намеков на исходный макет. Поэтому структурированный текст (например, таблицы, квитанции, столбчатые данные) иногда некорректно упорядочен.Сохранение структуры текста с помощью Google Cloud Vision TEXT_DETECTION?
Возможно ли сохранить структуру документа с помощью API Google Cloud Vision? Аналогичные вопросы задавали tesseract и hOCR. Например, [1] и [2]. В документации [3] в настоящее время нет информации о параметрах TEXT_DETECTION.
[1] How to preserve document structure in tesseract [2] Tesseract - ambiguity in space and tab [3] https://cloud.google.com/vision/
Из того, что я мог получить, каждый фрагмент текста, распознаваемый API, поставляется с координатами. Итак, если вы знаете, что какой-то текст, вероятно, будет на вершине изображения, вы можете попытаться исследовать куски, которые размещены сверху; если вам нужно проверить сумму из таблицы значений, например, вы можете изучить текст, распознанный в правом нижнем углу img. Я знаю, что это далеко не идеальный сценарий, и я также подумал, что это будет проще, прежде чем я отправлю настоящий образец в API. Но это все, о чем я могу сейчас подумать, чтобы попытаться решить эту «проблему». – Cotta