калибровочный Существует формула дается Hortonworks для расчета размерных
((Исходный размер + Размер YOY роста + Intermediate Data) * Repl Cpount * 1,2)/Сост Ratio
Предполагая, что по умолчанию вары
repl_count == 3 (по умолчанию) comp_ration = 3-4 (по умолчанию) Промежуточный размер данных = 30% -50% от сырого размера данных .- 1,2 фактор - температура пространства
Итак, для вашего первого года вам понадобится 16,9 ТБ. У вас есть 8TB * 5 == 40. Таким образом, пространство не является темой.
Рабочие характеристики 5 Datanodes. Чтение 1 ТБ занимает в среднем 2,5 часа (источник Hadoop - окончательное руководство) на одном диске. 600 ГБ с одним приводом - 1,5 часа. Оценивая, что вы реплицировали, чтобы вы могли использовать все 5 узлов параллельно, это означает чтение всех данных с 5 узлами, которые могут получить до 18 минут.
Возможно, вам придется добавить еще немного времени в зависимости от того, что вы делаете с вашими запросами и как настроили обработку данных.
consumution памяти
48 Гб не так много. ОЗУ по умолчанию для многих узлов данных начинается с 128 ГБ. Если вы используете кластер только для обработки, это может сработать. В зависимости от того, как вы настраиваете кластер и какие технологии используете для обработки. Если у вас есть одновременный доступ, вероятно, вы столкнетесь с ошибками кучи.
Подводя итог:
Это во многом зависит то, что вы хотите сделать с вами кластер и как комплекс ваши запросы. Также имейте в виду, что одновременный доступ может создавать проблемы.
Если время обработки данных 600 ГБ (в качестве базовой линии - реальные значения зависит от многих факторов, неизвестных, отвечая на эти вопросы), достаточно, и у вас нет одновременного доступа, идите на это.
Как я сказал ранее, мне не нужно выполнять данные 7tb каждый раз, каждый месяц мне приходится анализировать только 600 ГБ данных. – Ank
Я отредактировал свой ответ на основе вашего ввода –