2012-02-15 55 views
2

Мне нужно извлечь/обрезать логотип (BEAVER) в середине из TIFF файл, который выглядит следующим образом: http://i41.tinypic.com/2i7rbie.jpgExtract или обрезать изображение внутри TIFF

И тогда мне нужно автоматизировать процесс, поэтому он может быть повторяется около 9 миллионов раз ...

Я предполагаю, что мне нужно будет использовать некоторое программное обеспечение OCR. Но возможно ли, чтобы такое программное обеспечение «обрезало все, что начинается ниже этой точки и заканчивается выше этой точки»?

Мысли?

ответ

2

Обычно программное обеспечение OCR выполняет только извлечение текста из изображений и преобразование его в некоторый текстовый формат. Это не делает урожай. Тем не менее, вы можете использовать технологии OCR для достижения своей задачи. Я бы рекомендовал следующее:

  • OCR целой страницы
  • Получить координаты распознанного текста
  • Применить свои правила магии, чтобы распознанный текст, чтобы найти область для обрезки: такие, как averything между «приложением заполненного» и «ЗАЯВЛЕНИЕ " предложения.
  • Вырезать из изображения эту область и экспортировать ее туда, где вы хотите.

Настоящий вызов - это количество текста, который вы хотите обработать. Вы должны быть очень осторожны при определении своих «умных правил», чтобы убедиться, что они не предоставляют ложных срабатываний и всегда отправляют подозрительные изображения, чтобы отделить очередь, которую вы позже просмотрите вручную и обновите свои правила.

В целом это может выглядеть следующим образом:

  • Возьмите первые 10 изображений, определяют правила обнаружения логотипа, тест и посмотреть, если все работает хорошо
  • Затем запустите на следующий 10 см, что было prcessed неправильно , что не было обработано, правила обновления, повторно обработайте эти 10, чтобы убедиться, что все хорошо работает сейчас.
  • Повторно запустите его на новые партии того же размера, пока он не начнет работать хорошо.
  • Затем увеличьте размер партии от 10 до 100, и пойдите с этими партиями, пока снова все не начнет нормально работать
  • Затем продолжите этот путь, улучшив свои правила и увеличив размер партии. В какой-то момент вы пойдете на скорость производства.

Скорее всего, вы столкнетесь с некоторыми странными изображениями, которые либо противоречат существующим правилам, либо просто неверны. Не всегда вам нужно обновлять свои правила, чтобы разместить его. Может случиться так, что там всего дюжина изображений, подобных этой вашей 9-миллионной коллекции. Возможно, лучше оставить их в очереди исключений для ручной обработки и не подвергать риску стабильность ваших магических правил.

+0

Спасибо! Похоже на хороший подход. Следующий вопрос: должен ли я вместо этого использовать программное обеспечение для обрезки? – user1212256

+0

Что вы подразумеваете под «программным обеспечением для обрезки»? Photoshop? – Tomato

Смежные вопросы