2015-08-07 6 views
2

Наш кластер HBase имеет значительный объем сетевого трафика по сравнению с объемом данных, которые, как мы полагаем, мы пишем на него через OpenTSDB.Какова взаимосвязь между размером блока HDFS и трафиком сетевой репликации?

для ретрансляционной Bytes в OpenTSDB:

enter image description here

пропускная способность сети в Bytes (ось Y является единицы СИ, так что не BASE2):

enter image description here

Мы используем Cloudera, так блок будет 128 МБ, изменит ли он на 64 МБ сократить трафик репликации сети? Есть ли другие последствия для рассмотрения?

+0

Что такое relay.bytes и bond.bytes? Являются ли эти счетчики linux или поступают от сетевого устройства? За исключением 3-кратной репликации DFS, может ли она быть связана с базовыми задачами в самой базе данных? Если вы собираетесь построить диаграмму в течение нескольких дней, существуют ли какие-либо шаблоны на основе расписаний или пользовательских действий, которые видны? –

+0

@SergeiRodionov Единственные проблемы с базой данных, о которых я знаю, - это работы OpenTSDB (те, которые отличаются от транзакций HBase). bond.bytes исходит от Linux-устройства - это будет то же самое, что показывают порты коммутатора. relay.bytes - это то, как приложение отправляет OpenTSDB (и сжато JSON). Поэтому я ожидаю, что он будет намного меньше. Но даже без всплесков активности, показывает 10x умножение сетевого трафика (даже без 3xDFS). В основном меня интересует, как размер блока относится к размеру репликации. –

+0

Не знаете, как читать эти диаграммы, но 1k/sec кажется низким для любого значимого трафика при приеме пищи. Этот счетчик выдерживает проверку вручную проверки ifconfig для байтов RX. Мы настроены по умолчанию 64Mb и не видим веских причин для его изменения. Поэтому нет конкретных рекомендаций по размеру блока. –

ответ

1

Чтобы ответить прямо на вопрос о будет понижать размер блока уменьшить трафик репликации, ответ нет.

Клиенты HDFS не записывают сразу всю информацию об объеме блока - они передают записи в небольших пакетах с контрольной суммой из 64k-128k байт за один раз (настраиваемый), строя ко всему блоку в DataNode (s) в трубопровод.

Уменьшение размера блока будет иметь только один эффект: больше блоков по сравнению с другими DataNodes. Он не будет изменить скорость передачи и общее использование сети, которое целиком зависит от размера записи данных цели и коэффициента репликации, а не от атрибута размера логического блока HDFS.

Смежные вопросы