Мне интересно, поддерживает ли PySpark доступ к S3 с использованием ролей IAM. В частности, у меня есть бизнес-ограничение, где я должен принять роль AWS, чтобы получить доступ к данному ведру. Это нормально при использовании boto (поскольку это часть API), но я не могу найти окончательного ответа относительно того, поддерживает ли PySpark это из коробки.PySpark с использованием ролей IAM для доступа к S3
В идеале, я хотел бы иметь возможность выполнять роль при работе в автономном режиме локально и указывать мой SparkContext на этот путь s3. Я видел, что не-IAM-вызовы обычно следуют:
spark_conf = SparkConf().setMaster('local[*]').setAppName('MyApp')
sc = SparkContext(conf=spark_conf)
rdd = sc.textFile('s3://<MY-ID>:<MY-KEY>@some-bucket/some-key')
Существует ли что-то подобное для предоставления информации IAM? :
rdd = sc.textFile('s3://<MY-ID>:<MY-KEY>:<MY-SESSION>@some-bucket/some-key')
или
rdd = sc.textFile('s3://<ROLE-ARN>:<ROLE-SESSION-NAME>@some-bucket/some-key')
Если нет, то каковы наилучшие методы для работы с IAM кредитки? Возможно ли это?
Я использую Python 1.7 и PySpark 1.6.0
Спасибо!