2015-08-24 4 views
0

Я хочу обработать данные (например, проверить столбцы csv) в HDFS, используя Falcon. Я успешно установил Falcon (version - Hortonworks Sandbox 2.1, Falcon -0.5.0.2.1.1.0) и смог подать job. Однако задание не выполняется, и пользовательскому интерфейсу нечего запускать/останавливать работу. Я хочу знать, как проверить вывод задания и перейти к другому заданию в зависимости от проверки первого задания - рабочего процесса.Использование Falcon для обработки больших данных

ответ

0

Вы упомянули, что работа была отправлена. Если вы используете командную строку apache falcon, недостаточно «отправить», команда «schedule» также должна быть запущена. Для falcon «отправить» задание не будет заходить в запущенное состояние, «график» необходим.

Вы можете обратиться к http://falcon.apache.org/0.6.1/FalconCLI.html за всеми командами.

+0

Я выполнил команду отправки и расписания 'bin/falcon entity -submitAndSchedule -type примеры файлов процессов/entity/filesystem/pig-process.xml', как описано в [шаги установки] (http: //falcon.apache .org/InstallationSteps.html). Я могу видеть статус работы как работающий в oozie, где статус процесса отображается как UNKNOWN в пользовательском интерфейсе Falcon. Принимая во внимание, что, пожалуйста, помогите в ответе на _выполнение результата задания и перейдите к другому заданию в зависимости от проверки (успеха/неудачи) первой работы? _ – pktippa

+0

в feed.xml вы можете указать тег флажка доступности. Это флаг/файл, для которого будет обозначена полная доступность фида/данных для этого экземпляра. Например, process1 выдает feed1 как output, а feed1 вводится для process2, вы можете указать флаг доступности в файле feed1 xml. Process2 будет ждать, пока этот флаг не появится в feed1, созданный процессом1. В большинстве случаев в системе eco-системы hasoop этот флаг является _SUCCESS, но использование также может его настроить. PLS ссылаются на http://falcon.apache.org/0.6.1/EntitySpecification.html#Feed_Specification и поиск «флаги доступности» –

0

Если вы ищете пользовательскую логику, вы можете создать рабочий процесс oozie, и этот рабочий процесс должен отправить работу falcon в качестве последней задачи.

<process name="sample-process"> 
... 
    <workflow engine="oozie" path="/projects/bootcamp/workflow"/> 
... 
</process> 

https://falcon.apache.org/EntitySpecification.html#Process_Specification

Надеется, что это помогает.

Смежные вопросы