Я использую искру, и у меня есть разные типы сжатых файлов на hdfs (zip, gzip, 7zip, tar, bz2, tar.gz и т. Д.). Может кто-нибудь, пожалуйста, дайте мне знать лучший способ для декомпрессии. Для некоторого сжатия я мог бы использовать CompressionCodec. Но он не поддерживает весь формат сжатия. Для zip-файла я сделал некоторый поиск и нашел, что ZipFileInputFormat можно использовать. но я не мог найти ни одной банки для этого.распаковка файлов из hdfs in spark
0
A
ответ
0
Для некоторого сжатого формата (я знаю, что это верно для tar.gz и zip, не проверены для других), вы можете напрямую использовать API-интерфейс dataframe, и он позаботится о сжатии для вас:
val df = spark.read.json("compressed-json.tar.gz")
+0
Привет @Ben выше работает для файла tar, но не для zip-файлов. Я использую искру 1.6 с помощью scala 2.10.2 –
Смежные вопросы
- 1. Использование файлов из HDFS в Apache Spark
- 2. Копирование и распаковка с S3 на HDFS
- 3. DataFrame to HDFS in spark scala
- 4. HDFS Unit testing in Spark 1.6
- 5. Spark streaming не считывает файлы, перемещенные из HDFS в HDFS
- 6. Чтение всех файлов из HDFS рекурсивно в spark java api
- 7. Spark/Spark Streaming в производстве без HDFS
- 8. Загрузка данных из HDFS -Spark Scala
- 9. HDFS Hadoop с Spark
- 10. Как файлы HDFS раздела Spark?
- 11. Невозможно использовать файлы из HDFS в Spark
- 12. Распаковка максимального числа из имен файлов
- 13. Автоматическая распаковка файлов
- 14. Spark coalesce vs HDFS getmerge
- 15. Spark написать паркет по hdfs
- 16. Распаковка двоичных файлов
- 17. Распаковка нескольких файлов - Java
- 18. Query hdfs с Spark Sql
- 19. Apache Spark JDBCRDD использует HDFS?
- 20. Spark HDFS размер на AWS?
- 21. Pydoop stucks на readline из файлов HDFS
- 22. Apache Spark читать файл как поток из HDFS
- 23. Распаковка и переименование файлов/папок
- 24. Перенос файлов из необеспеченных hdfs в защищенный hdfs кластер
- 25. перемещение большого количества файлов из hdfs в hdfs
- 26. Чтение файлов ORC непосредственно из оболочки Spark
- 27. Запись на HDFS в Spark/Scala
- 28. Hive metastore in hdfs
- 29. Загрузка данных Spark локально Неполный HDFS URI
- 30. Apache Spark: пакетная обработка файлов
Вы можете написать свой собственный формат ввода и записи читателя в Java и импортировать в Скале. https://gist.github.com/jteso/1868049 –
[zip, 7zip, tar - архивы *, не обязательно «сжатые»] (http://superuser.com/questions/173756/which-is-more- эффективный-tar-или-zip-compression-what-is-the-difference-between), как у BZip2 и Gzip (gz и gzip одинаковы ... tar.gz - это tar-архив, который сжимается). Anyways, BZip2 - лучший вариант в HDFS http://comphadoop.weebly.com/index.html –