2015-02-05 3 views
2

Я играю с кластером Кассандры на Azure. Мне потребовалось более 1 недели, чтобы настроить работу и работать. Теперь он работает, но я думаю, что я неправильно понял 1 концепцию Cassandra, то есть как хранятся данные?cassandra репликация данных понимание

У меня создалось впечатление, что когда я загружаю данные, те же данные будут доступны на всех машинах, то есть если я загружу файл 10 МБ и 4 узла (2 семени), все 4 будут иметь 10 МБ потребления. Наверное, я ошибаюсь.

Поскольку я только что создал 4 узла и загружены вокруг (2 + 5 + 20 + 20 = 47 МБ) данных (BLOB), но когда я проверить состояние, я смотри ниже

-- Address Load  Tokens Owns (effective) Host ID        Rack 
UN 10.1.2.5 28.32 MB 256  47.5%    xxxxxxxx-eb9a-46fb-8213-c7487074d9a8 rc1 
UN 10.1.2.4 27.14 MB  256  51.3%    xxxxxxxx-11ed-41c6-be8b-a912e54b1ccf rc1 
UN 10.1.2.7 25.09 MB 256  50.1%    xxxxxxxx-9e73-410a-b1bf-5bfd15138625 rc2 
UN 10.1.2.6 23.32 MB 256  51.2%    xxxxxxxx-d132-49b6-8eda-4459391d12e4 rc2 

Кстати, репликации фактор для таблиц был «2». Нагрузка меняется несколько раз каждые пару минут. но я могу загрузить данные и их, как ожидалось!

Извините за то, что вы ленивы и несправедливы, я был настроен на поиски в течение недели и был бы очень признателен, если бы вы могли помочь мне понять это или, по крайней мере, указать мне на правильную ссылку.

Спасибо, Ninad

ответ

2

Это выглядит как ожидаемый результат. Каждый фрагмент ваших данных реплицируется 2 раза в соответствии с вашим коэффициентом репликации. Таким образом, примерно 47 Мб раз 2 распределенных по 4 узлам приводят к приблизительно 25 мб на каждом узле.

+0

спасибо за ответ и объяснение того, как это работает вкратце. –

Смежные вопросы