Понимание # ведер для таблицы SnappyData?

По умолчанию # из ковшей - 113. Почему? Почему бы не 110? Отличается ли логика ковша с определенным значением «делимое».Понимание # ведер для таблицы SnappyData?

В SnappyData есть много примеров с меньшим количеством ведер. Почему это? Какая логика заключалась в определении использования меньше ковшей, чем по умолчанию 113?

Каковы последствия выбора меньше? Как насчет большего количества ведер? Я вижу много записей в моих запросах Spark SQL, ищущих данные в каждом ведре. Неужели хуже при выполнении запроса иметь больше ведер?

источник

2016-08-25 Jason

Мы выбрали простое число, которое наиболее эффективно распределяет данные в логике разбиения на основе хэша. Количество ковшей окажет некоторое влияние на производительность запросов. Поскольку ведра переведены в задачи Spark, накладные расходы на планирование задач будут иметь большее количество ведер.

Но если у вашего кластера больше емкости с точки зрения количества процессоров, вы должны, конечно, попытаться сопоставить количество ковшей с близким простым числом.

источник

2016-08-25 07:17:01

Следуйте этим инструкциям, чтобы вычислить общее количество ковшей для секционированной таблицы:

Используйте простое число. Мы используем функцию хэширования внутри, и это обеспечивает наиболее равномерное распределение. Проверьте это сообщение для получения более подробной информации: Why use a prime number in hashCode?
Сделайте это как минимум в четыре раза больше, чем количество хранилищ данных , которые вы ожидаете иметь за столом. Чем больше отношение ковшей к хранилищам данных, тем более равномерная нагрузка может быть распределена по всем элементам.

Обратите внимание, что существует компромисс между балансировкой нагрузки и накладными расходами. Управление ведром приводит к значительным накладным расходам, особенно при более высоком уровне резервирования.

источник

2016-08-25 07:51:29

Можете ли вы уточнить, что вы подразумеваете под «количеством хранилищ данных»? Вы говорите об общих серверах SnappyData Store или свойстве REDUNDANCY, когда я определяю DDL таблицы? – Jason

Да, это означает, что общие серверы настроены (или предполагается, что они будут настроены при расширении кластера в будущем). – Sumedh

Понимание # ведер для таблицы SnappyData?

ответ

Смежные вопросы