2016-01-28 4 views
0

У нас есть две системы: одна автономная система (производительность здесь не важна), где задания MapReduce запускаются в кластере HBase. Другое - это онлайн-система (здесь очень важна функция Performace), где API читается из того же кластера HBase. Но поскольку задания MapReduce работают на одном кластере, в онлайн-системе возникают проблемы с производительностью. Поэтому мы пытаемся настроить отдельный кластер HBase для автономной системы, который является репликацией нескольких имен фамилий из исходного кластера. Итак, на источнике запускается тяжелая работа MapReduce. На реплицированном кластере работает только онлайн-система, обеспечивающая максимальную производительность. Мой вопрос здесь :: Нельзя использовать функцию Snap shot в HBase для того, чтобы сделать то же самое? Я также хотел знать, в чем разница между ними?Репликация против моментального снимка в HBase

+1

Этот [статья из Cloudera] (http://blog.cloudera.com/blog/2013/03/introduction-to-apache-hbase-snapshots/) содержит подробные снимки, а также перечисляет ваш конкретный сценарий (последний один по списку вариантов использования). Надеюсь, это поможет – vmachan

ответ

1

Если вы используете функцию моментального снимка для mapreduce, он также будет тратить процессор, память и диск io на узлы кластера hbase. Таким образом, если диск io или cpu является узким местом для вас, лучшим решением является отдельный кластер для работы с mapreduce.

+0

Да, диск io или cpu беспокоит меня. мы выбираем другой кластер. Похоже ли, если мы используем Snapshot для загрузки данных в новый кластер, также будут проблемы с производительностью в исходном кластере? – sai

Смежные вопросы