Можем ли мы определить методологию, с помощью которой мы можем решить, следует ли нам искать брэкетинг или разбиение?Сравнительная разница между разбиением и балансировкой в улье
ответ
Обычно разбиение на разделы в улье предлагает способ разделения данных таблицы улья на несколько файлов/каталогов. Но разделение дает эффективные результаты, когда
- Есть ограниченное число разделов
- перегородки сравнительно одинакового размера
Но это не может возможно во всех случаях, как, когда секционирования наших таблиц на основе географических местоположений (в том числе 4-5 стран, которые вносят 70-80% от общего объема данных), где в небольших странах данные будут создавать небольшие перегородки (остальные страны мира могут внести вклад лишь в 20-30 лет) % от общих данных). Итак, в этих случаях разделение не будет идеальным.
Чтобы преодолеть проблему переразделения, Hive предоставляет концепцию Bucketing, еще один способ разложения наборов данных таблицы в более управляемые части. Концепция букетинга основана на (хэш-функции на столбчатой колонке) mod (по общему количеству ковшей). Функция hash_function зависит от типа столбца bucketing.
Записи с одним и тем же столбцом в квадратных скобках всегда будут храниться в одном и том же ковше, и физически каждое ведро будет всего лишь файлом в каталоге таблицы, а нумерация ведра - 1.
Bucketing работает хорошо, когда поле имеет высокой кардинальности и данные равномерно распределены между ведрами. Разметка работает лучше всего, когда мощность поля разделения является не слишком высока.
- 1. В чем разница между разбиением и балансировкой в улье?
- 2. В чем разница между разбиением и балансировкой таблицы в Hive?
- 3. Разница между балансировкой нагрузки и балансировкой нагрузки
- 4. Разница между кластеризацией и балансировкой нагрузки?
- 5. Разница между &> и> в улье
- 6. Разница между разделом и индексом в улье
- 7. Разница между разбиением строки с символом и строкой в scala
- 8. Разница между нормализацией и разбиением на разделы в СУБД
- 9. Разница между кластером By и CLUSTERED BY в улье?
- 10. В Улье, какая разница между простым и общим UDAF?
- 11. Разница в производительности между собственным разбиением на MySQL и разбиением на бэкэнд?
- 12. Сравнительная эффективность Java примитива
- 13. Сравнительная цифра между Tomcat и TomEE и другими продуктами apache
- 14. Разница в логике, вызванная разбиением компоновки
- 15. Hive (Bigdata) - разница между балансом и индексированием
- 16. Сравнительная платформа Java и .NET
- 17. VB.NET, MySQL и Crystal Report Сравнительная инструкция между двумя таблицами
- 18. Сравнительная дата в as3?
- 19. разница между `% в%` и `` ==
- 20. Quering между двумя столами в улье
- 21. В улье время отсчета между двумя моментами
- 22. D3 Сравнительная гистограмма
- 23. Разница между композитором.phar между | и ||
- 24. Множественный выбор в улье
- 25. Объединение двух столбцов в улье и использовать между оператором
- 26. Сравнительная производительность Hadoop Zlib и JDK Gzip
- 27. Нужно слова между «-» ТОЛЬКО разбиением строк
- 28. В чем разница между «и»?
- 29. Разница между '' и "" в Python
- 30. В чем разница между `{}` и `[]`?
Возможный дубликат [В чем разница между разделением и балансировкой таблицы в Hive?] (Http://stackoverflow.com/questions/19128940/what-is-the-difference-between-partitioning-and-bucketing- а-таблица в улей) –