Pig не может обработать большой файл

Я новичок в Hadoop и Pig.Pig не может обработать большой файл

У меня есть кластер Hadoop с 3 узлами. Я написал сценарий свиней, который обычно считывает данные и выполняет на нем агрегированные функции.

Когда я выполняю файл 4.8G с 36 миллионами записей, свиньи дают результат за 51 минуту.

Когда я выполняю 9.6G-файл с 72-миллионным сценарием, скрипт свиста сбой, и Hadoop дает следующую ошибку.

Невозможно восстановить исключение из резервной ошибки: AttemptID: attempt_1389348682901_0050_m_000005_3 Info: Контейнер убит ApplicationMaster.
работы не удалось, Hadoop не возвращает сообщение об ошибке

Я использую Hadoop 2.2.0 и 0.12.0 Pig.

Моя конфигурация узлов

Master: 2 CPU, 2 GB RAM Slave1: 2 CPU, 2 GB RAM Slave2: 1 процессор, 2 Гб оперативной памяти

Не могли бы вы посоветовать мне по этому поводу?

источник

2014-01-17 Bhagwant

Возможно ли, что в вашем сценарии свиней есть некоторая логическая ошибка? См. Http://stackoverflow.com/questions/12874975/error-main-2997-unable-to-recreate-exception-from-backend-error-org-apache-p –

Тот же сценарий успешно работает для файла 4.8G с 36 Миллион записей. То, что я наблюдаю во время выполнения сценария операции LOAD, не получилось. Узлы не могут обрабатывать/загружать 9 ГБ файл. Можем ли мы сделать операцию LOAD параллельной? – Bhagwant

А, да, это сработало. Если файл находится в разделяемом формате, вам не нужно беспокоиться о том, что он большой. Возможно, LOAD может выйти из строя из-за некоторых синтаксических ошибок входного файла, хотя обычно он должен просто пропустить сломанную запись, соответственно. положить нуль на свое место. Трудно догадаться, не видя журналы, ваши данные и ваш скрипт. –

После попытки вещей с Pig. Я переехал в Улей.

То, что я наблюдал, когда я использовал Pig:

Я загрузки файла в HDFS и загрузить его на рис. Итак, Свин снова загрузил этот файл. Я дважды обрабатывал файл.

Для моего сценария Hive подходит. Я загружаю файл в HDFS и загружаю этот файл в Hive. Это займет несколько миллисекунд. Поскольку Hive плавно работает с файлами HDFS. Поэтому нет необходимости снова загружать данные в таблицы Hive. Это экономит много времени.

Оба компонента хороши, для меня Hive подходит.

Спасибо всем за ваше время и совет.

источник

2014-01-20 06:44:50 Bhagwant

Pig не может обработать большой файл

ответ

Смежные вопросы