Для проекта Big Data я планирую использовать spark, который имеет некоторые приятные функции, такие как вычисления в памяти для повторяющихся рабочих нагрузок. Он может работать на локальных файлах или поверх HDFS.Поддержка gzip в Spark
Однако в официальной документации я не могу найти подсказок о том, как обрабатывать gzip-файлы. На практике это может быть довольно эффективно обрабатывать файлы .gz вместо распакованных файлов.
Есть ли способ вручную выполнить чтение gzipped-файлов или разархивировать уже автоматически при чтении .gz-файла?
Я хотел бы отметить, что, если вы звоните 'sc.textFile()' на сжатыми файлами, Спарк даст у вас есть RDD с 1 разделом (с 0.9.0). Это связано с тем, что файлы gzipped [не разделяются] (http://mail-archives.apache.org/mod_mbox/spark-user/201310.mbox/%[email protected] .com% 3E). Если вы каким-либо образом не переделаете RDD, любые операции с этим RDD будут ограничены одним ядром. –
Когда я пытаюсь 'logs = sc.textFile (" logs/*. Bz2 ")', я получаю сообщение об ошибке в следующем 'logs.count()'. Любые идеи почему? – zbinsd
@zbinsd вы поняли это в конце? Я получаю следующую ошибку при загрузке файлов tar.gz: JsonParseException: Незаконный символ ((CTRL-CHAR, код 0)): разрешено только обычное пустое пространство (\ r, \ n, \ t) между токенами – Leon