2014-10-28 7 views
5

В настоящее время моя команда создает решение, которое будет использовать HDInsight. Мы будем получать 5 Тбайт данных ежедневно, и вам нужно будет сделать некоторые карты/уменьшить рабочие места по этим данным. Будет ли какая-либо разница в производительности/стоимости, если наши данные будут храниться в Azure Table Storage вместо Azure HBase?HDInsight: HBase или Azure Table Storage?

ответ

7

Основные отличия будут в функциональности и стоимости.

Azure Table Storage не имеет привязанного к нему двигателя для уменьшения карты, хотя, конечно, вы можете использовать подход с уменьшением карты, чтобы написать свой собственный.

Вы можете использовать Azure HDInsight для подключения Map Reduce к хранилищу таблиц. Существует несколько разъемов, в том числе один написанный мной, который сфокусирован на улье и требует некоторой конфигурации, и может не соответствовать вашей схеме разделов (http://www.simonellistonball.com/technology/hadoop-hive-inputformat-azure-tables/) и менее ориентированной на производительность, но более полной версии от кого-то из Microsoft (http://blogs.msdn.com/b/mostlytrue/archive/2014/04/04/analyzing-azure-table-storage-data-with-hdinsight.aspx).

Главным преимуществом Хранилища таблиц является то, что вы не постоянно получаете стоимость обработки.

Если вы используете HBase, вам нужно будет запускать полный кластер все время, поэтому есть недостаток в затратах, однако вы получите некоторую функциональность и прирост производительности, плюс у вас будет что-то более портативное, вы хотите использовать другие платформы hadoop. У вас также будет доступ к гораздо большему диапазону аналитических функций с опцией HBase.

2

HDInsight (HBase/Hadoop) использует память Azure Blob не ATS. Для вашего хранилища данных вам будет взиматься только соответствующая стоимость хранения blob, основанная на вашей подписке.

P.S. Не забудьте удалить кластер после завершения работы, чтобы избежать сборов. Ваши данные будут сохраняться в хранилище BLOB и могут использоваться в следующем кластере, который вы создаете.

+3

Хранилище Blob является основным механизмом хранения, но, безусловно, возможно написать StorageHandler, чтобы позволить кластерам HDInsight обрабатывать данные табличного хранилища. –

Смежные вопросы