Работы Spark (я думаю) создают файл для каждого раздела, чтобы он мог обрабатывать сбои и т. Д. ..., поэтому в конце задания вы остаетесь с папкой, в которой может быть много папок, оставшихся в них , Они автоматически загружаются на S3, так что есть способ объединить их в один сжатый файл, который готов для загрузки в Redshift?Как эффективно объединить выходные файлы Spark в EMR?
3
A
ответ
1
Вместо следующего, который будет писать один несжатый файл на перегородке в «my_rdd» ...
my_rdd.saveAsTextFile(destination)
Можно сделать ...
my_rdd.repartition(1).saveAsTextFile(destination, compressionCodecClass=“org.apache.hadoop.io.compress.GzipCodec”)
Это посылает данные во всех разделяет один конкретный рабочий узел в кластере, который должен быть объединен в один массивный раздел, который затем будет выписан в один сжатый файл gzip.
Однако я не считаю это желательным решением проблемы. Только один поток записывает и сжимает единственный файл результата. Если этот файл огромен, это может занять «навсегда». Каждое ядро в кластере сидит без дела, но одно. Redshift не нуждается в том, чтобы все было в одном файле. Redshift легко справляется с загрузкой набора файлов - используйте COPY с «файлом манифеста» или «префиксом»: Using the COPY Command to Load from S3.
Смежные вопросы
- 1. Объединить выходные файлы задания MapReduce
- 2. Как переименовать выходные файлы в Hive на EMR?
- 3. Выходные папки для Amazon EMR
- 4. Как объединить небольшие паркетные файлы с Spark?
- 5. Настройка Spark на EMR
- 6. Как отправить банку Spark в кластер EMR?
- 7. Как более эффективно загружать файлы паркета в Spark (pySpark v1.2.0)
- 8. Spark UI на AWS EMR
- 9. Как получить файлы с amazon emr?
- 10. Spark + Cassandra на EMR LinkageError
- 11. Spark emr repartition-compute-coalesce
- 12. Как предотвратить повторный шаг EMR Spark?
- 13. Как подключиться к Spark EMR из локально запущенного Spark Shell
- 14. Чтение json эффективно в Spark
- 15. Выходные файлы в C
- 16. Получение emr-ddb-hadoop.jar для подключения DynamoDB с EMR Spark
- 17. Как объединить выходные данные в оболочке?
- 18. Присоединить файлы, используя Apache Spark/Spark SQL
- 19. Как правильно управлять группой EMR S3DistCp?
- 20. Как эффективно объединить эти data.tables
- 21. Как эффективно левое соединение в Spark?
- 22. Как эффективно объединить два BST?
- 23. Зависимости EMR и Spark после создания кластера
- 24. Как объединить две коллекции эффективно?
- 25. Как эффективно объединить хэшей ключ
- 26. EMR: доступно ли приложение Spark при загрузке?
- 27. Как преобразовать HadoopRDD в DataFrame в EMR Spark?
- 28. Spark работает на EC2 vs EMR
- 29. Настройка Spark Classpath на Amazon EMR
- 30. Запуск сценария EMR Spark и вкладка SQL Spark UI исчезает