2014-01-17 7 views
0

Я новичок в Hadoop и Pig.Pig не может обработать большой файл

У меня есть кластер Hadoop с 3 узлами. Я написал сценарий свиней, который обычно считывает данные и выполняет на нем агрегированные функции.

Когда я выполняю файл 4.8G с 36 миллионами записей, свиньи дают результат за 51 минуту.

Когда я выполняю 9.6G-файл с 72-миллионным сценарием, скрипт свиста сбой, и Hadoop дает следующую ошибку.

  • Невозможно восстановить исключение из резервной ошибки: AttemptID: attempt_1389348682901_0050_m_000005_3 Info: Контейнер убит ApplicationMaster.
  • работы не удалось, Hadoop не возвращает сообщение об ошибке

Я использую Hadoop 2.2.0 и 0.12.0 Pig.

Моя конфигурация узлов

Master: 2 CPU, 2 GB RAM Slave1: 2 CPU, 2 GB RAM Slave2: 1 процессор, 2 Гб оперативной памяти

Не могли бы вы посоветовать мне по этому поводу?

+0

Возможно ли, что в вашем сценарии свиней есть некоторая логическая ошибка? См. Http://stackoverflow.com/questions/12874975/error-main-2997-unable-to-recreate-exception-from-backend-error-org-apache-p –

+0

Тот же сценарий успешно работает для файла 4.8G с 36 Миллион записей. То, что я наблюдаю во время выполнения сценария операции LOAD, не получилось. Узлы не могут обрабатывать/загружать 9 ГБ файл. Можем ли мы сделать операцию LOAD параллельной? – Bhagwant

+0

А, да, это сработало. Если файл находится в разделяемом формате, вам не нужно беспокоиться о том, что он большой. Возможно, LOAD может выйти из строя из-за некоторых синтаксических ошибок входного файла, хотя обычно он должен просто пропустить сломанную запись, соответственно. положить нуль на свое место. Трудно догадаться, не видя журналы, ваши данные и ваш скрипт. –

ответ

0

После попытки вещей с Pig. Я переехал в Улей.

То, что я наблюдал, когда я использовал Pig:

Я загрузки файла в HDFS и загрузить его на рис. Итак, Свин снова загрузил этот файл. Я дважды обрабатывал файл.

Для моего сценария Hive подходит. Я загружаю файл в HDFS и загружаю этот файл в Hive. Это займет несколько миллисекунд. Поскольку Hive плавно работает с файлами HDFS. Поэтому нет необходимости снова загружать данные в таблицы Hive. Это экономит много времени.

Оба компонента хороши, для меня Hive подходит.

Спасибо всем за ваше время и совет.

Смежные вопросы