2014-01-29 3 views
8

Прежде всего, я относительно новичок в области больших данных и мира Hadoop, и я только немного начал экспериментировать с песочницей Hortonworks (Pig and Hive). Мне было интересно, в каких случаях я мог бы использовать вышеупомянутые инструменты Hadoop, Hive, Pig, HBase и Cassandra?
Hadoop, Hive, Pig, HBase, Cassandra - когда использовать что?

В моей среде песочницы с файлом всего 9 Мбайт у куста и свиньи было время отклика секунд до минут. Это, очевидно, неприменимо в некоторых ситуациях, например, для веб-приложений (если это не что-то другое, например, моя установка виртуальной машины).

Мои догадки о правильных использований являются:

  • Hadoop: Просто технологическая база для отдыха, только очень немногие потребительные случаи, когда он будет использоваться непосредственно
  • улей или Свиньи: Для аналитических процессов которые выполняются один раз в час или день
  • HBase или Кассандра: для приложений реального времени (например, веб-приложения), где время отклика с 100мс или менее необходимы

Дополнительными ly, когда использовать HBase в отличие от того, когда использовать Cassandra?

Спасибо!

ответ

7

Ваши догадки несколько точны.

От Hadoop, я думаю, вы имеете в виду MapReduce? Hadoop как таковой является экосистемой, которая состоит из многих компонентов (включая MapReduce, HDFS, Pig и Hive).

MapReduce хорошо, когда вам нужно написать логику обработки данных на уровне методов Map() и Reduce(). В моей работе я нахожу MapReduce очень полезной, когда я имею дело с неструктурированными данными. & необходимо очистить.

Hive, Pig: Они хороши для пакетных процессов, протекающих периодически (возможно, через несколько часов или дней)

HBase & Кассандры: Поддержка низких вызовов времени ожидания. Таким образом, они могут использоваться для приложений реального времени, где время ответа является ключевым. Посмотрите на this discussion, чтобы получить лучшее представление о HBase vs Cassandra.

+0

Я думаю, что Hadoop означает HDFS, поскольку Hive, Pig и HBase в первую очередь используют HDFS в качестве своей файловой системы. –

Смежные вопросы