2015-09-11 2 views
0

Мой работодатель запускает кластер Hadoop, и поскольку наши данные редко превышают 1 ГБ, я обнаружил, что Hadoop редко необходим для удовлетворения потребностей нашего офиса (это не большие данные), но мой работодатель, похоже, хочет можно сказать, что мы используем наш кластер Hadoop, поэтому мы активно изыскиваем данные, которые нуждаются в анализе, используя наш большой причудливый инструмент.Когда данные достаточно велики, чтобы использовать Hadoop?

Я видел несколько сообщений о том, что ничего, кроме 5 тб, не должно использовать хауоп. Каков магический размер, где Hadoop становится практическим решением для анализа данных?

+0

Как простое эмпирическое правило, если вы можете поместить свои данные в базу данных, размещенную на на одной машине у вас нет больших данных, и вам не нужен Hadoop. 1 ГБ - это не большие данные. 5TB приближается, но все еще может быть обработан на одной машине. Hadoop - это когда у вас так много данных, что для его обработки вам нужно разбить его на куски и обработать на нескольких машинах. Если вы можете поместить его в единую БД, всегда лучше сделать это. – bhspencer

+0

Hadoop не является заменой БД. – RojoSam

ответ

1

Существует не что-то вроде волшебного размера. Hadoop - это не только количество данных, но и ресурсы и обработка «стоимости». Это не одно и то же одно изображение, которое может потребовать большого количества памяти и процессора, чем разбор текстового файла. И haoop используется для обоих.

Чтобы оправдать использование Hadoop вам нужно ответить на последующие вопросы:

  • Является ли ваш процесс может работать в одной машине и завершить работу вовремя?
  • Как быстро ваши данные растут?

Это не одно и то же одно время отчитываться 5TB, чтобы генерировать отчет, чем читать 1 ГБ десять раз в секунду от клиента, обращенного к API. Но если вы еще не сталкивались с такими проблемами раньше, очень вероятно, что вам не нужно использовать hadoop для обработки вашего 1GB :)

Смежные вопросы