Я вижу, что свинья может читать файлы .bz2 изначально, но я не уверен, что она выполняет явное задание для разделения bz2 на несколько inputplits? Может ли кто-нибудь подтвердить это? Если свинья работает над созданием inputplits, есть ли способ избежать этого? Я имею в виду способ раскодирования среды MapReduce для файлов bz2 в muplitple inputlits на уровне структуры?Apache Pig обрабатывает файл bz2 изначально?
ответ
Разделимые форматы ввода не реализованы в hadoop (или у свиньи, которая просто запускает задания MR для вас), так что файл разбивается на одно задание, а затем разбивается на второе задание.
Формат ввода определяет метод isSplittable
, который определяет, можно ли разделять формат файла. В дополнение к этому большинство текстовых форматов проверит, использует ли файл известный кодек сжатия (например: gzip, bzip2), и если поддержка кодека разделяется (gzip не является, в принципе, а bz2).
Если входной формат/кодек разрешает разделение файлов, то разделение определяется в определенных (и настраиваемых) точках в сжатом файле (скажем, каждые 64 МБ). Когда задачи карты создаются для обработки каждого раскола, затем получите формат ввода для создания устройства чтения записей для файла, передавая разделенную информацию для того, откуда должен начинаться считыватель (смещение блока 64 МБ). Затем читателю предлагается искать точку смещения раскола. В этот момент базовый кодек будет искать эту точку в сжатом файле и сканировать вперед, пока не найдет следующий заголовок сжатого блока (в случае bz2). Считывается затем, как обычно, в несжатом потоке, возвращенном из кодека, до тех пор, пока конечная точка разделения не будет передана в несжатом потоке.
- 1. Apache Pig скрипт выходной файл
- 2. Открыть приспосабливает файл BZ2
- 3. Apache PIG, подтвердите ввод
- 4. Apache Pig CsvExcelStorage
- 5. JOIN in Apache Pig
- 6. Ошибка Apache Pig: java.lang.reflect.InvocationTargetException
- 7. apache-pig dse pig flatten use
- 8. Apache Pig: Динамические столбцы
- 9. Apache pig UnsatisfiedLinkError
- 10. рейтинг в Apache Pig
- 11. Функция объяснения Apache Pig
- 12. Apache PIG, JSON Loader
- 13. apache pig count sort
- 14. Apache Pig Quantile Grouping
- 15. Apache PIG - GROUP BY
- 16. умножение матрицы apache pig
- 17. Ошибка Apache Pig LOAD
- 18. Apache PIG, ELEPHANTBIRDJSON Loader
- 19. Apache Pig не работает
- 20. SUM in Apache Pig
- 21. Apache Pig escape column name
- 22. Запуск UDF в Apache Pig
- 23. Handi delimiter in Apache Pig
- 24. Datetime parsing in Apache Pig
- 25. Ошибка Apache Pig - невозможно отслеживать
- 26. Как загрузить данные в мешок Apache Pig
- 27. Apache не обрабатывает базовый SSI
- 28. Apache Pig Регистрация возвращает пустые
- 29. Apache Pig условный foreach generate
- 30. Сводный стол с Apache Pig
Вопрос заключается в том, что свинья запускает задание, чтобы предварительно разбить файл, а затем запустить задание по разделенному файлу? –
Да. Спасибо, что попросили разъяснения. Вероятно, это зависит от базового Hadoop? – kee