У меня есть набор изображений размером ~ 1 ГБ, равный 1 ГБ, который мне нужен для запуска того же алгоритма. В настоящее время у меня есть процесс исправления, написанный на C++, и он работает хорошо, однако на всех этих изображениях будет выполняться бесконечная работа. Я понимаю, что реализация MapReduce/Spark может работать, но я не могу понять, как использовать вход/выход изображения.Hadoop для обработки больших изображений
Каждый учебник/пример, который я видел, использует обычный текст. Теоретически я хотел бы использовать веб-службы Amazon. Если у кого-то есть какое-то направление для меня, это будет здорово. Я, очевидно, не ищу полного решения, но, возможно, кто-то успешно реализовал что-то близкое к этому? Заранее спасибо.
Спасибо за информацию, я очень ценю это. Идея контейнера/очереди Docker кажется, что она может работать. Поэтому, чтобы убедиться, что я понимаю, я бы обернул существующий код C++ в контейнер и добавил все имена файлов в очередь sqs. Затем запустите определенное количество EC2 в зависимости от размера очереди и отправьте контейнер каждому. Поскольку каждый EC2 заканчивает работу, он записывает новое изображение в S3 и удаляет задание из очереди? – HelloWor1d
Правильно. Обтекание приложения в контейнере тривиально (просто добавьте все зависимости/библиотеки, скопируйте скомпилированное двоичное приложение и добавьте команду «RUN», см. [Dockerfile] (https://docs.docker.com/engine/reference/ builder /) –
Отлично, я начну изучать его. Было бы целесообразно отправить пару заданий на каждый EC2 или только по одному для каждого? Также будет иметь значение, если очередь невероятно длинная или мне нужно ее сохранить на определенной длине и добавлять задания, поскольку EC2 заканчивает другие? – HelloWor1d