0
Я установил Hadoop и улей. Я могу обрабатывать и запрашивать файлы xls, tsv, используя куст. Я хочу обрабатывать другие файлы, такие как docx, pdf, ppt. Как я могу это сделать? Есть ли какая-либо отдельная процедура для обработки этих файлов в AWS? пожалуйста помогите.Различные файлы в hadoop
Спасибо за ваш ответ ... Я хочу знать, как я могу запускать запрос по файлам docx, pdf, ppt. –
Я верю, Есть API-интерфейсы с открытым исходным кодом для взаимодействия/извлечения данных из всех вышеупомянутых файлов. Вы использовали бы его совместно с Hadoop/EMR –