Я ищу решение (в версии HADOOP 2.2+) для следующей задачи.Handle 3 Million + небольшие текстовые файлы в Hadoop 2.0
Постановка задачи:
Мы должны обработать 3 млн + файлы на ежедневной основе. Мы имеем , заинтересованные в захвате имени файла, а также данных в файле. Как обработать эти данные наиболее эффективным способом?
Я знаю о «CombineFileInputFormat», «MultiFileInputSplit» и «Layout HAR Файл», но я не уверен, какой из них будет лучше с точки зрения производительности.
Если есть другие варианты, о которых вы знаете, пожалуйста, поделитесь ими.
Спасибо за ответ, –
Спасибо за ответ. Мы планируем хранить все файлы (размером <1 МБ) в папке на ежедневной основе. Теперь нам нужно обработать задачу «Уменьшить карту» в этих файлах, чтобы читать каждую строку для вывода вывода. Этот код навсегда завершается из-за усилий по поддержанию дома. Таким образом, я хотел знать, как решить проблему с небольшим файлом, и какой процесс будет наиболее эффективным. Если вы столкнулись с подобным сценарием раньше/у вас есть решение для этого, пожалуйста, разделите. –