Трудно оценить, сколько места требуется, не имея возможности определить степень сжатия. Проще говоря, если воздушные фотографии домов хорошо сжимаются, то это может значительно изменить объем данных, который необходимо сохранить.
Но, в интересах математики, мы можем попытаться выяснить, что требуется.
Итак, если каждый пиксель измеряет 3 см на 3 см, они покрывают 9 см^2. Быстрый поиск по Википедии говорит нам о том, что Лондон составляет около 1700 км 2, а при 10 млрд. См2 на км^2 составляет 17 000 000 000 000 см2. Это означает, что нам нужно 1 888 888 888 888 пикселей для покрытия Лондона с разрешением 3 см. Помещение этого в байты с 4 байтами на пиксель составляет около 7000 гигабайт. Если вы получите 50% -ное сжатие, это снизит его до 3500GiB для Лондона. Умножьте это на каждый город, который вы хотите покрыть, чтобы получить представление о том, какое хранилище данных вам понадобится.
Поставка контента проста по сравнению с его сбором. Поскольку это неловкое параллельное решение, кластер с общим доступом с соответствующим интерфейсом для маршрутизации трафика в нужные узлы, вероятно, будет самым простым способом его реализации. Это связано с тем, что узлам не нужно поддерживать состояние или общаться друг с другом. Идеальный метод будет зависеть от того, сколько данных вы проталкиваете, если вы нажимаете достаточно данных, возможно, стоит реализовать собственный веб-сервер, который просто отвечает на HTTP GET.
Я не уверен, что распределенный FS будет лучшим способом распространять вещи, так как вам придется потратить значительное количество времени, пытаясь вытащить данные из другого места в кластере.
Почему вы хотели бы их хранить в Hadoop (я думаю, вы имеете в виду HDFS, не так ли?). Это параллельный доступ или что-то вроде: многие небольшие единицы хранения становятся одним большим !? –
Да HDFS имеет параллельный доступ (что означает высокую пропускную способность). – portoalet