Pig 0,12 введены потоковый питона UDF,, но они экспериментальным, поэтому они нуждаются в Hadoop 1.Как использовать Python потокового UDF, в свинью на Amazon EMR
http://pig.apache.org/docs/r0.12.1/udf.html#python-udfs
Однако только Amazon предоставленный AMI что можно использовать свинью 0,12 является AMI 3.1.0, который использует Hadoop 2.4, а не Hadoop 1:
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-hadoop-version.html
Таким образом, единственный, что AMI поддерживает правильную версию свиньи не поддерживает правильную версию Hadoop , Есть ли способ получить потоковые UDF, работающие с EMR?
Я использую EMR AMI 3.0.4 с Apache Pig 0.11. 1.1, и я просто извлекаю Apache Pig 0.13.0 из tarball и обновляю PATH, чтобы указать 0.13.0, а не 0.11.0. Я бы предположил, что то же самое облако будет сделано и со старыми ОМИ. –
Это тоже должно работать. Тем не менее, Pig не является частью AMI, а устанавливается во время создания кластера. Таким образом, вы можете изменить определение кластера, чтобы оно не было предустановлено. – user1452132