2013-11-20 4 views
1

У меня есть сценарий свиньи, который получит все данные из cassandra, мало преобразуется и хранится на hdfs. Когда я запускаю его на консоль хрюка свиньи, это занимает почти 30 минут, поскольку в кассандре много данных.Pig Cassandra процесс очень медленный (Heart beat) с oozie

Но когда я выполняю то же самое с использованием рабочего потока oozie, он выполняется, но занимает очень много времени почти полтора часа. Когда я проверил журналы хаоса, это то, что он говорит.

2013-11-19 01: 20: 00871 [главный] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - подробная информация по адресу: мастера: 50030/jobdetails.jsp JobID = job_201311190052_0002 сердце бить .. .. Сердце бить Сердце бить 2013-11-19 02: 09: 59172 [главная] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 50% завершено 2013-11-19 02: 10: 17,289 [главная] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 100% завершено

Так что почти он проверяет Heart Beat на 50 минут, а затем снова возобновляет процесс.

Я сделал telnet от источника к месту назначения по 9000 порту. Я смог подключиться. Я даже проверил файл/etc/hosts для конфигурации IP на обеих машинах, что хорошо выглядит, кстати.

Мы по-прежнему не понимаем, почему это происходит? и что это? а также как преодолеть это, чтобы обработка была сделана немного быстрее. Кто-нибудь может помочь нам в этом отношении? Любая помощь высоко ценится.

+0

Даже я столкнулся с аналогичной проблемой. У кого-нибудь есть решение? – devThoughts

ответ

0

Это 2 вещи, которые решили проблему.

1) Использовано где пункт, чтобы получить данные из cassandra вместо получения всех данных.

2) добавив еще несколько вентиляторов к машине, так как это было вызвано недостаточным охлаждением жесткого диска.

Смежные вопросы