Большой вопрос. Обнаружение нескольких объектов в одном и том же изображении кипит, по сути, является «проблемой сегментации». Два хороших и популярных алгоритма: YOLO (вы только смотрите один раз) и SSD (однопоточный мультибокс-детектор). Я включил ссылки на них внизу.
Я бы посмотрел несколько видеороликов о том, как работает YOLO, и посмотрите, понимаете ли вы эту идею. Затем прочитайте статью на SSD и посмотрите, почему вы используете этот алгоритм еще быстрее и точнее.
Оба алгоритма однопроходные: они только смотрят на изображение «один раз» и предсказывают ограничивающие поля для категорий, которые они видят. Есть более точные алгоритмы, но они медленнее (они сначала выбирают много точек, которые они хотят посмотреть, а затем запускают классификатор только в этом месте. В результате они запускают этот классификатор многократно на изображение, что является медленным).
Как вы заявили, что являетесь новичком в Tensorflow, вы можете попробовать этот код у других людей: https://github.com/thtrieu/darkflow. Очень обширное readme показывает вам, как начать работу с вашим собственным набором данных.
Удачи, и сообщите нам, если у вас есть другие вопросы, или если эти алгоритмы не подходят для вашего прецедента.
Блестящий ответ и ссылки, которые вы указали, были на месте! Я наградил тебя щедростью. Большое спасибо за то, что поделились своими опытом в этой теме! – JohnV