2015-06-02 3 views

ответ

0

Bucketing используется вместе с разделением, чтобы иметь более разложенную структуру для будущего анализа. Поскольку большее количество разделов приводит к большему количеству файлов hdfs, которые могут повлиять на производительность namenode, мы прибегаем к bucketing. Фактически работает bucketing: количество ковшей определяется hashFunction (bucketingColumn) mod numOfBuckets numOfBuckets выбирается при создании таблицы с разделением. Выход хеш-функции зависит от типа выбранного столбца. Чтобы точно установить количество редукторов во время балансировки и правильно разместить данные, мы используем «hive.enforce.bucketing = true». Пожалуйста, обратитесь к this, для получения дополнительной информации

0

Мне недавно пришлось выкопать исходный код улья, чтобы понять это для себя. Вот что я нашел:

Для целочисленного поля hash is just the integer value. Для строки используется similar version из Java's String hashCode. При хешировании нескольких значений хэш является аналогичной версией Java’s List hashCode.

Смежные вопросы