Как хеширование работает в bucketing для улья?

Я знаю хэширования принципала для HashMap на Java, поэтому хотел знать, как хэширование работает для улья, пока мы балансируем данные в разных ведрах.Как хеширование работает в bucketing для улья?

источник

2015-06-02 Prashant

Bucketing используется вместе с разделением, чтобы иметь более разложенную структуру для будущего анализа. Поскольку большее количество разделов приводит к большему количеству файлов hdfs, которые могут повлиять на производительность namenode, мы прибегаем к bucketing. Фактически работает bucketing: количество ковшей определяется hashFunction (bucketingColumn) mod numOfBuckets numOfBuckets выбирается при создании таблицы с разделением. Выход хеш-функции зависит от типа выбранного столбца. Чтобы точно установить количество редукторов во время балансировки и правильно разместить данные, мы используем «hive.enforce.bucketing = true». Пожалуйста, обратитесь к this, для получения дополнительной информации

источник

2015-06-02 16:58:43 Ramzy

Мне недавно пришлось выкопать исходный код улья, чтобы понять это для себя. Вот что я нашел:

Для целочисленного поля hash is just the integer value. Для строки используется similar version из Java's String hashCode. При хешировании нескольких значений хэш является аналогичной версией Java’s List hashCode.

источник

2017-10-16 14:39:44 otto

Как хеширование работает в bucketing для улья?

ответ

Смежные вопросы