2

Итак, я пытаюсь запустить приложение hadoop WordCount на Amazon EMR. У меня есть собственный файл данных, который я загрузил в abc bucket. Я также добавил файл wordcount.jar под номером abc bucket. Может ли кто-нибудь сказать мне, когда мы создадим кластер, как мы можем указать путь к файлу данных, а также нам нужно указать путь к выходному каталогу, и если да, то как я могу указать путь к выходному каталогу?Выполнение пользовательского файла jar с входными параметрами на Amazon EMR

ответ

0

Файл данных передается как параметр в Jar, файл данных живет в ведро S3. Вывод также представляет собой ведро s3, в этом случае вы можете использовать тот же самый ведро, просто введите каталог/вывод в ведро и отправьте туда весь вывод.

https://blog.safaribooksonline.com/2013/05/07/running-hadoop-mapreduce-jobs-on-amazon-emr/

«» "Наш файл JAR WordCount будет принимать главный файл фляги, за ними следует имя ведра, где вы загрузили входные данные и выходной путь. Обратите внимание, что у вас есть только обеспечить пути, а не точные имена файлов. Кроме того, убедитесь, что в выходном пути нет выходного файла. Формат для указания входных и выходных путей: s3n: /// path. "" "

Смежные вопросы