Я пишу искрение, используя python. Однако мне нужно прочитать целую кучу файлов avro.Как читать файл Avro в PySpark
This - это самое близкое решение, которое я нашел в папке примеров Spark. Тем не менее, вам нужно отправить этот скрипт python с помощью spark-submit. В командной строке spark-submit вы можете указать класс-драйвер, в этом случае будет находиться весь ваш avrokey, класс avrovalue.
avro_rdd = sc.newAPIHadoopFile(
path,
"org.apache.avro.mapreduce.AvroKeyInputFormat",
"org.apache.avro.mapred.AvroKey",
"org.apache.hadoop.io.NullWritable",
keyConverter="org.apache.spark.examples.pythonconverters.AvroWrapperToJavaConverter",
conf=conf)
В моем случае, мне нужно, чтобы запустить все, что в сценарии Python, я попытался создать переменную среды для включения в файл фляги, кросс палец Python добавит банку в путь, но очевидно, что оно не , это дает мне неожиданную ошибку класса.
os.environ['SPARK_SUBMIT_CLASSPATH'] = "/opt/cloudera/parcels/CDH-5.1.0-1.cdh5.1.0.p0.53/lib/spark/examples/lib/spark-examples_2.10-1.0.0-cdh5.1.0.jar"
Может ли кто-нибудь помочь мне, как читать файл avro в одном скрипте python?