Какова была бы самая оптимизированная логика сжатия для файлов Parquet при использовании в Spark? Также был бы примерный размер файла паркета 1gb после сжатия с каждым типом сжатия?Сжатие паркетных файлов
ответ
Refer here for Size Difference between all the compress & uncompress
- ORC: Если вы создаете таблицу ORC в улье вы не можете вставить что с Impala, так что вы должны вставить в улей с последующим ОБНОВИТЬ table_name в Impala
- Avro: Насколько мне известно, он такой же, как ORC
- паркета: вы можете создать таблицу в улье и вставить его из Impala
Duh - это зависит от того, какие данные у вас есть; текст обычно сжимается очень хорошо, случайная метка времени или значения поплавка не очень хорошо.
Посмотрите на this presentation от последней конференции Apache Big Data, особенно слайды 15-16, которая показывает результаты сжатия для каждого столбца на тестовом наборе данных.
[Остальная прес. о теории & практике сжатия применительно к внутренней структуре паркета]
Вы можете попробовать следующие шаги, чтобы сжать паркетную файл в Spark:
Шаг 1: Установите тип сжатия, настроить spark.sql .parquet.compression.codec недвижимость:
sqlContext.setConf ("spark.sql.parquet.compression.codec", "кодек")
Шаг 2: Указать кодек values.The поддерживает кодек значения: несжатый, gzip, lzo и мгновенный. По умолчанию используется gzip.
Затем создайте dataframe, скажем Df от вас данных и сохранить его с помощью следующей команды: Df.write.parquet («path_destination») Если Вы проверяете папку теперь вы будете видеть Albe, что файлы были сохраненный с типом сжатия, указанным в шаге 2 выше.
Пожалуйста, обратитесь к ссылке ниже для более подробной информации: https://www.cloudera.com/documentation/enterprise/5-8-x/topics/spark_parquet.html
- 1. Генерировать метаданные для паркетных файлов
- 2. Как использовать fileStream для потока паркетных файлов?
- 3. Сжатие файлов
- 4. Как избежать создания файлов .crc при создании паркетных файлов
- 5. Сжатие файлов через Powershell
- 6. Сжатие файлов HDFS изнутри
- 7. Swift - Сжатие видео файлов
- 8. Сжатие файлов в Unity3D
- 9. Berkeley DB Сжатие файлов
- 10. Сжатие разделенных PDF-файлов
- 11. three.js JSON Сжатие файлов
- 12. сжатие файлов в JAVA
- 13. Сжатие файлов Log4j
- 14. Сжатие серии javascript файлов
- 15. DICOM Сжатие файлов
- 16. Hadoop Последовательность Сжатие файлов
- 17. Python Сжатие файлов
- 18. Сжатие файлов в ASP.Net
- 19. Amazon S3 Сжатие файлов?
- 20. Сжатие файлов LMDB
- 21. Сжатие файлов и каталогов
- 22. Как использовать sqlContext для загрузки нескольких паркетных файлов?
- 23. Производительность загрузки паркетных файлов в классы классов в Spark
- 24. Как контролировать количество паркетных файлов, сгенерированных при использовании partitionBy
- 25. Как написать несколько паркетных файлов параллельно в pyspark?
- 26. Чтение паркетных файлов из нескольких каталогов в Pyspark
- 27. Читать несколько паркетных файлов в то же время в Спарк
- 28. Parquetloader: невозможно загрузить несколько паркетных файлов с помощью свиньи
- 29. Внешняя таблица не обновляется из паркетных файлов, написанных искровым потоком
- 30. Загрузка паркетных файлов в таблице hive возвращает все NULL