Прежде всего, я относительно новичок в области больших данных и мира Hadoop, и я только немного начал экспериментировать с песочницей Hortonworks (Pig and Hive). Мне было интересно, в каких случаях я мог бы использовать вышеупомянутые инструменты Hadoop, Hive, Pig, HBase и Cassandra?
Hadoop, Hive, Pig, HBase, Cassandra - когда использовать что?
В моей среде песочницы с файлом всего 9 Мбайт у куста и свиньи было время отклика секунд до минут. Это, очевидно, неприменимо в некоторых ситуациях, например, для веб-приложений (если это не что-то другое, например, моя установка виртуальной машины).
Мои догадки о правильных использований являются:
- Hadoop: Просто технологическая база для отдыха, только очень немногие потребительные случаи, когда он будет использоваться непосредственно
- улей или Свиньи: Для аналитических процессов которые выполняются один раз в час или день
- HBase или Кассандра: для приложений реального времени (например, веб-приложения), где время отклика с 100мс или менее необходимы
Дополнительными ly, когда использовать HBase в отличие от того, когда использовать Cassandra?
Спасибо!
Я думаю, что Hadoop означает HDFS, поскольку Hive, Pig и HBase в первую очередь используют HDFS в качестве своей файловой системы. –