Мой работодатель запускает кластер Hadoop, и поскольку наши данные редко превышают 1 ГБ, я обнаружил, что Hadoop редко необходим для удовлетворения потребностей нашего офиса (это не большие данные), но мой работодатель, похоже, хочет можно сказать, что мы используем наш кластер Hadoop, поэтому мы активно изыскиваем данные, которые нуждаются в анализе, используя наш большой причудливый инструмент.Когда данные достаточно велики, чтобы использовать Hadoop?
Я видел несколько сообщений о том, что ничего, кроме 5 тб, не должно использовать хауоп. Каков магический размер, где Hadoop становится практическим решением для анализа данных?
Как простое эмпирическое правило, если вы можете поместить свои данные в базу данных, размещенную на на одной машине у вас нет больших данных, и вам не нужен Hadoop. 1 ГБ - это не большие данные. 5TB приближается, но все еще может быть обработан на одной машине. Hadoop - это когда у вас так много данных, что для его обработки вам нужно разбить его на куски и обработать на нескольких машинах. Если вы можете поместить его в единую БД, всегда лучше сделать это. – bhspencer
Hadoop не является заменой БД. – RojoSam