Я использую hive,Как уменьшить количество картографов, когда я запускаю запрос куста?
У меня есть 24 файла json с общим размером 300 МБ (в одной папке), поэтому я создал одну внешнюю таблицу (т.е. таблицу1), и я загрузил данные (то есть 24 файла) Таблица.
Когда я запускаю запрос выбора поверх этой внешней таблицы (например, таблицы1), я заметил, что работают 3 карты и 1 редуктор.
После этого я создал еще одну внешнюю таблицу (например, таблицу2).
Я сжал свои входные файлы (папка, содержащая 24 файла).
Пример: BZIP2
Так сжимать данные, но 24 файлов, созданных с расширением «.BZiP2» (i.e..file1.bzp2, ... ..file24.bzp2).
После этого я загрузил сжатые файлы в свою внешнюю таблицу.
Теперь, когда я запускаю запрос select, он берет 24 карты и 1 редуктор. И наблюдаемое время процессора занимает больше времени по сравнению с несжатыми данными (например, файлы).
Как уменьшить количество картографов, если данные находятся в сжатом формате (например, запрос выбора таблицы2)?
Как уменьшить время процессора, если данные находятся в сжатом формате (например, запрос выбора таблицы2)? Как время процессора повлияет на производительность?
, если больше количества указателей, значит, производительность меньше права? –
Больше карт параллельно - больше производительности. Но если слишком много картографов, скажем, тысяч или более - некоторые из них не будут выполняться (ожидающие), они будут ждать очереди в свободных слотах. Вот почему производительность может ухудшиться. – leftjoin
Для больших данных не слишком много 24 карт. Это зависит от вашего размера кластера/базы данных, для некоторых кластеров 24K или более карточек в порядке – leftjoin