2016-05-06 5 views
1

Какова была бы самая оптимизированная логика сжатия для файлов Parquet при использовании в Spark? Также был бы примерный размер файла паркета 1gb после сжатия с каждым типом сжатия?Сжатие паркетных файлов

ответ

0

Refer here for Size Difference between all the compress & uncompress

  1. ORC: Если вы создаете таблицу ORC в улье вы не можете вставить что с Impala, так что вы должны вставить в улей с последующим ОБНОВИТЬ table_name в Impala
  2. Avro: Насколько мне известно, он такой же, как ORC
  3. паркета: вы можете создать таблицу в улье и вставить его из Impala
0

Duh - это зависит от того, какие данные у вас есть; текст обычно сжимается очень хорошо, случайная метка времени или значения поплавка не очень хорошо.

Посмотрите на this presentation от последней конференции Apache Big Data, особенно слайды 15-16, которая показывает результаты сжатия для каждого столбца на тестовом наборе данных.
[Остальная прес. о теории & практике сжатия применительно к внутренней структуре паркета]

0

Вы можете попробовать следующие шаги, чтобы сжать паркетную файл в Spark:

Шаг 1: Установите тип сжатия, настроить spark.sql .parquet.compression.codec недвижимость:

sqlContext.setConf ("spark.sql.parquet.compression.codec", "кодек")

Шаг 2: Указать кодек values.The поддерживает кодек значения: несжатый, gzip, lzo и мгновенный. По умолчанию используется gzip.

Затем создайте dataframe, скажем Df от вас данных и сохранить его с помощью следующей команды: Df.write.parquet («path_destination») Если Вы проверяете папку теперь вы будете видеть Albe, что файлы были сохраненный с типом сжатия, указанным в шаге 2 выше.

Пожалуйста, обратитесь к ссылке ниже для более подробной информации: https://www.cloudera.com/documentation/enterprise/5-8-x/topics/spark_parquet.html

Смежные вопросы