2013-03-06 2 views
2

Я пытаюсь запустить потоковое задание, где входные файлы являются csv внутри zip-файлов. Я попытался с помощью this, однако это не похоже на работу с CDH4 (я получаю ошибку class com.cotdp.hadoop.ZipFileInputFormat not org.apache.hadoop.mapred.InputFormat)Hadoop потоковое с zip-файлами ввода

Кто-нибудь знает считывателем входного файла я могу использовать для потоковой передачи с почтовыми файлами? Если возможно, я ищу читателя с несколькими файлами (которому может быть предоставлен каталог верхнего уровня).

ответ

1

Я закончил письмо zipstream.

Обратите внимание, что процесс обрабатывает только первый файл в zip, я, вероятно, добавлю поддержку нескольких файлов позже.

0

Существует два атрибута hadoop для входных форматов. mapred.InputFormat и mapreduce.InputFormat.

mapreduce - это новейший API и тот, который вы должны использовать, если сможете.

Я бы посмотрел, какие функции InputFormat ZipInputFormat реально реализуют. Если он реализует версию mapreduce, вам нужно перенести свою работу на этот второй API.

Немного фона: В более ранней версии Hadoop «mapred» был обесценен в пользу «mapreduce», более новой, быстрой и чистой реализации. К сожалению, этот новый API не включал в себя все функции старого, поэтому в более поздних версиях Hadoop 'mapred' был восстановлен, и теперь есть два API, которые в основном делают то же самое.

+0

Используется 'mapreduce'. – lazy1

Смежные вопросы