Как использовать Python потокового UDF, в свинью на Amazon EMR

Pig 0,12 введены потоковый питона UDF,, но они экспериментальным, поэтому они нуждаются в Hadoop 1.Как использовать Python потокового UDF, в свинью на Amazon EMR

http://pig.apache.org/docs/r0.12.1/udf.html#python-udfs

Однако только Amazon предоставленный AMI что можно использовать свинью 0,12 является AMI 3.1.0, который использует Hadoop 2.4, а не Hadoop 1:

http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-hadoop-version.html

Таким образом, единственный, что AMI поддерживает правильную версию свиньи не поддерживает правильную версию Hadoop , Есть ли способ получить потоковые UDF, работающие с EMR?

источник

2014-09-04 warbaker

Вы можете установить свою собственную версию Pig on EMR, используя ботстрап-действие. Вам нужно будет создать кластер без Pig, уже установленного в версии AMI (2.4.5?), А затем установить версию Pig, которая вам нравится (0.12)

источник

2014-09-04 18:19:52 user1452132

Я использую EMR AMI 3.0.4 с Apache Pig 0.11. 1.1, и я просто извлекаю Apache Pig 0.13.0 из tarball и обновляю PATH, чтобы указать 0.13.0, а не 0.11.0. Я бы предположил, что то же самое облако будет сделано и со старыми ОМИ. –

Это тоже должно работать. Тем не менее, Pig не является частью AMI, а устанавливается во время создания кластера. Таким образом, вы можете изменить определение кластера, чтобы оно не было предустановлено. – user1452132

Как использовать Python потокового UDF, в свинью на Amazon EMR

ответ

Смежные вопросы