Как установить параметры конфигурации Hadoop от pyspark

версия Scala из SparkContext обладает свойствомКак установить параметры конфигурации Hadoop от pyspark

sc.hadoopConfiguration

Я успешно использовал это, чтобы установить свойства Hadoop (в Скале ..)

например

sc.hadoopConfiguration.set("my.mapreduce.setting","someVal")

Однако версия Python SparkContext не имеет этого доступа. Есть ли способ установить значения конфигурации hadoop в конфигурацию Hadoop, используемую контекстом pyspark?

источник

2015-03-04 javadba

sc._jsc.hadoopConfiguration().set('my.mapreduce.setting', 'someVal')

должен работать

источник

2015-09-18 21:30:30

Это решение также относится и к тех, кто пытается получить их AWS AccessKeyId/SecretAccessKey быть приняты при использовании S3N: // адреса. 'sc._jsc.hadoopConfiguration(). Set ('fs.s3n.awsAccessKeyId', '')' –

Я посмотрел в исходный код pyspark (context.py) и не существует прямого эквивалента. Вместо этого некоторые специфические методы поддерживают отправку в карте пар (ключ, значение):

fileLines = sc.newAPIHadoopFile('dev/*', 
'org.apache.hadoop.mapreduce.lib.input.TextInputFormat', 
'org.apache.hadoop.io.LongWritable', 
'org.apache.hadoop.io.Text', 
conf={'mapreduce.input.fileinputformat.input.dir.recursive':'true'} 
).count()

источник

2015-03-04 00:46:50 javadba

Вы можете задать любые Hadoop свойства, используя --conf параметр при подаче задания.

--conf "spark.hadoop.fs.mapr.trace=debug"

Источник: https://github.com/apache/spark/blob/branch-1.6/core/src/main/scala/org/apache/spark/deploy/SparkHadoopUtil.scala#L105

источник

2017-05-05 04:14:07

Как установить параметры конфигурации Hadoop от pyspark

ответ

Смежные вопросы