0

Я установил Hadoop и улей. Я могу обрабатывать и запрашивать файлы xls, tsv, используя куст. Я хочу обрабатывать другие файлы, такие как docx, pdf, ppt. Как я могу это сделать? Есть ли какая-либо отдельная процедура для обработки этих файлов в AWS? пожалуйста помогите.Различные файлы в hadoop

ответ

1

Нет никакой разницы в потреблении этих файлов, как на любой платформе Hadoop. Для удобного доступа и длительного хранения - вы можете поместить эти файлы в S3.

+0

Спасибо за ваш ответ ... Я хочу знать, как я могу запускать запрос по файлам docx, pdf, ppt. –

+0

Я верю, Есть API-интерфейсы с открытым исходным кодом для взаимодействия/извлечения данных из всех вышеупомянутых файлов. Вы использовали бы его совместно с Hadoop/EMR –

Смежные вопросы