2015-08-31 3 views
1

Работа над проектом для извлечения содержимого из заданного изображения и сравнения с другими изображениями в репозитории и список соответствующих изображений.Сравнение изображений с использованием CBIR и OCR

Какой должен быть правильный подход, чтобы сделать это, чтобы поиск не замедлялся в конечном итоге.

То, что я планировал сделать в качестве первого уровня фильтрации, заключалось в том, чтобы использовать любой метод Image Querying (CBIR) для получения изображений, соответствующих шаблону заданного изображения. Затем выполните OCR, чтобы получить изображение и выполнить проверку соответствия.

Пожалуйста, дайте мне знать, если есть лучший подход для этого.

ответ

0

шаги сделали

Softwares 1. Tesseract OCR 2. Image Magick - для изображения очистки 3. Textcleaner сценария

  1. обнаружил ориентацию изображения с помощью программного обеспечения Image Магического

    • Конвертировать пакет имеет функцию, чтобы найти ориентацию изображения, используя данные EXIF, которые не так полезны.
    • Для этого изображения было повернуто на 90 градусов три раза, а данные ocr для каждого были сопоставлены с другим, чтобы найти правильную ориентацию. (изображение с максимальным числом слов побед)
  2. OCRed изображение, чтобы получить текст и прикладную фильтрацию, чтобы получить счет нет, дату и количество.

    • на успехе хранит подробную информацию о БД для последующего поиска
    • на провале
      • Созданы 10 различных изображений с разными фильтрами (режим серой шкалы и sharpment применяются)
      • распознаны все изображения и выяснил, необходимые данные формируют все полученные данные.
  3. Сохраненные данные используются для будущей функции поиска для искоренения дублирования