Я новичок в Hadoop и Pig.Pig не может обработать большой файл
У меня есть кластер Hadoop с 3 узлами. Я написал сценарий свиней, который обычно считывает данные и выполняет на нем агрегированные функции.
Когда я выполняю файл 4.8G с 36 миллионами записей, свиньи дают результат за 51 минуту.
Когда я выполняю 9.6G-файл с 72-миллионным сценарием, скрипт свиста сбой, и Hadoop дает следующую ошибку.
- Невозможно восстановить исключение из резервной ошибки: AttemptID: attempt_1389348682901_0050_m_000005_3 Info: Контейнер убит ApplicationMaster.
- работы не удалось, Hadoop не возвращает сообщение об ошибке
Я использую Hadoop 2.2.0 и 0.12.0 Pig.
Моя конфигурация узлов
Master: 2 CPU, 2 GB RAM Slave1: 2 CPU, 2 GB RAM Slave2: 1 процессор, 2 Гб оперативной памяти
Не могли бы вы посоветовать мне по этому поводу?
Возможно ли, что в вашем сценарии свиней есть некоторая логическая ошибка? См. Http://stackoverflow.com/questions/12874975/error-main-2997-unable-to-recreate-exception-from-backend-error-org-apache-p –
Тот же сценарий успешно работает для файла 4.8G с 36 Миллион записей. То, что я наблюдаю во время выполнения сценария операции LOAD, не получилось. Узлы не могут обрабатывать/загружать 9 ГБ файл. Можем ли мы сделать операцию LOAD параллельной? – Bhagwant
А, да, это сработало. Если файл находится в разделяемом формате, вам не нужно беспокоиться о том, что он большой. Возможно, LOAD может выйти из строя из-за некоторых синтаксических ошибок входного файла, хотя обычно он должен просто пропустить сломанную запись, соответственно. положить нуль на свое место. Трудно догадаться, не видя журналы, ваши данные и ваш скрипт. –