Я пытаюсь запустить потоковое задание, где входные файлы являются csv внутри zip-файлов. Я попытался с помощью this, однако это не похоже на работу с CDH4 (я получаю ошибку class com.cotdp.hadoop.ZipFileInputFormat not org.apache.hadoop.mapred.InputFormat
)Hadoop потоковое с zip-файлами ввода
Кто-нибудь знает считывателем входного файла я могу использовать для потоковой передачи с почтовыми файлами? Если возможно, я ищу читателя с несколькими файлами (которому может быть предоставлен каталог верхнего уровня).
Используется 'mapreduce'. – lazy1