2016-02-20 4 views
4

Версия 1 API Google Cloud Vision (бета) позволяет распознавать оптическое распознавание через запросы TEXT_DETECTION. Хотя качество распознавания хорошее, символы возвращаются без каких-либо намеков на исходный макет. Поэтому структурированный текст (например, таблицы, квитанции, столбчатые данные) иногда некорректно упорядочен.Сохранение структуры текста с помощью Google Cloud Vision TEXT_DETECTION?

Возможно ли сохранить структуру документа с помощью API Google Cloud Vision? Аналогичные вопросы задавали tesseract и hOCR. Например, [1] и [2]. В документации [3] в настоящее время нет информации о параметрах TEXT_DETECTION.

[1] How to preserve document structure in tesseract [2] Tesseract - ambiguity in space and tab [3] https://cloud.google.com/vision/

+1

Из того, что я мог получить, каждый фрагмент текста, распознаваемый API, поставляется с координатами. Итак, если вы знаете, что какой-то текст, вероятно, будет на вершине изображения, вы можете попытаться исследовать куски, которые размещены сверху; если вам нужно проверить сумму из таблицы значений, например, вы можете изучить текст, распознанный в правом нижнем углу img. Я знаю, что это далеко не идеальный сценарий, и я также подумал, что это будет проще, прежде чем я отправлю настоящий образец в API. Но это все, о чем я могу сейчас подумать, чтобы попытаться решить эту «проблему». – Cotta

ответ

2

Признание структуры текста является более абстрактным понятием, чем признать сам текст: буквы, слова, предложения. Если у вас уже есть эта информация о структуре текста в ваших метаданных файла, вы можете сделать что-то вроде:

  • Сегмент/разделите ваше входное изображение в подчасти.
  • Выполнение ваших запросов text_detection.
  • Правильно отредактируйте свой текст на основе ваших метаданных.

Я не эксперт в области облачного видение text_detection API, но это написано text_detection не language_detection или text_structure_detection, так что это дает некоторые небольшие подсказки об уровне обнаружения/слое.

Возможно, это функция, которую они планируют добавить в будущем или описать в документации.

+0

Сборы за изображение, поэтому разделение изображения на подпапки потенциально будет очень дорогостоящим для сложных структур. – user3761401