Проблемы с соединителем Google Cloud Storage на Spark

Я пытаюсь установить Google Cloud Storage на Spark на Mac OS для локального тестирования моего приложения Spark. Я прочитал следующий документ (https://cloud.google.com/hadoop/google-cloud-storage-connector). Я добавил «gcs-connector-latest-hadoop2.jar» в свою папку spark/lib. Я также добавил файл core-data.xml в каталог spark/conf.Проблемы с соединителем Google Cloud Storage на Spark

Когда я запускаю мою pyspark оболочку, я получаю сообщение об ошибке:

>>> sc.textFile("gs://mybucket/test.csv").count() 
    Traceback (most recent call last): 
    File "<stdin>", line 1, in <module> 
    File "/Users/poiuytrez/Documents/DataBerries/programs/spark/python/pyspark/rdd.py", line 847, in count 
    return self.mapPartitions(lambda i: [sum(1 for _ in i)]).sum() 
    File "/Users/poiuytrez/Documents/DataBerries/programs/spark/python/pyspark/rdd.py", line 838, in sum 
    return self.mapPartitions(lambda x: [sum(x)]).reduce(operator.add) 
    File "/Users/poiuytrez/Documents/DataBerries/programs/spark/python/pyspark/rdd.py", line 759, in reduce 
    vals = self.mapPartitions(func).collect() 
    File "/Users/poiuytrez/Documents/DataBerries/programs/spark/python/pyspark/rdd.py", line 723, in collect 
    bytesInJava = self._jrdd.collect().iterator() 
    File "/Users/poiuytrez/Documents/DataBerries/programs/spark/python/lib/py4j-0.8.2.1-src.zip/py4j/java_gateway.py", line 538, in __call__ 
    File "/Users/poiuytrez/Documents/DataBerries/programs/spark/python/lib/py4j-0.8.2.1-src.zip/py4j/protocol.py", line 300, in get_return_value 
py4j.protocol.Py4JJavaError: An error occurred while calling o26.collect. 
: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem not found 
    at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:1895) 
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2379) 
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2392) 
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:89) 
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2431) 
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2413) 
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:368) 
    at org.apache.hadoop.fs.Path.getFileSystem(Path.java:296) 
    at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:256) 
    at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:228) 
    at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:304) 
    at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:179) 
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:204) 
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:202) 
    at scala.Option.getOrElse(Option.scala:120) 
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:202) 
    at org.apache.spark.rdd.MappedRDD.getPartitions(MappedRDD.scala:28) 
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:204) 
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:202) 
    at scala.Option.getOrElse(Option.scala:120) 
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:202) 
    at org.apache.spark.api.python.PythonRDD.getPartitions(PythonRDD.scala:56) 
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:204) 
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:202) 
    at scala.Option.getOrElse(Option.scala:120) 
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:202) 
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:1135) 
    at org.apache.spark.rdd.RDD.collect(RDD.scala:774) 
    at org.apache.spark.api.java.JavaRDDLike$class.collect(JavaRDDLike.scala:305) 
    at org.apache.spark.api.java.JavaRDD.collect(JavaRDD.scala:32) 
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) 
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 
    at java.lang.reflect.Method.invoke(Method.java:606) 
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:231) 
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:379) 
    at py4j.Gateway.invoke(Gateway.java:259) 
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:133) 
    at py4j.commands.CallCommand.execute(CallCommand.java:79) 
    at py4j.GatewayConnection.run(GatewayConnection.java:207) 
    at java.lang.Thread.run(Thread.java:744) 
Caused by: java.lang.ClassNotFoundException: Class com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem not found 
    at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:1801) 
    at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:1893) 
    ... 40 more

Я не уверен, куда идти дальше.

источник

2014-10-02 poiuytrez

Требование Может варьироваться в зависимости от версии Spark, но если вы заглянете внутрь bdutil-0.35.2/extensions/spark/install_spark.sh, вы увидите, как работает установка «Spark + Hadoop on GCE» с использованием bdutil; она включает в себя элементы, которые упоминают, добавив соединитель в/Lib папку свече, и добавление файла ядро-site.xml в каталог искровым/конф, но дополнительно имеет линию добавил к spark/conf/spark-env.sh:

export SPARK_CLASSPATH=\$SPARK_CLASSPATH:${LOCAL_GCS_JAR}

где ${LOCAL_GCS_JAR} - это абсолютный путь к jarfile, который вы добавили в spark/lib. Попробуйте добавить это к spark/conf/spark-env.sh, и ClassNotFoundException должно исчезнуть.

источник

2014-10-02 19:33:50

Я получаю: Это устарело в Spark 1.0+. Пожалуйста, вместо этого использовать: - ./spark-submit с --driver-классами, чтобы увеличить пути к классам драйвера - spark.executor.extraClassPath увеличить ИСПОЛНИТЕЛЬ классов Но я получил другую ошибку, когда я пытаюсь получить доступ к моему хранению. Я создам новый вопрос SO. – poiuytrez

У меня была ошибка сервера метаданных, которую я решил использовать, отвечая на этот вопрос: http://stackoverflow.com/questions/25291397/migrating-50tb-data-from-local-hadoop-cluster-to-google-cloud-storage – poiuytrez

Добавление $ HADOOP_CLASSPATH к $ SPARK_CLASSPATH в spark-env.sh решит проблему. (по крайней мере, это сработало для меня в Spark 1.2.1) –

Проблемы с соединителем Google Cloud Storage на Spark

ответ

Смежные вопросы