Сохранение файлов на S3: локальный файл против HDFS

фонСохранение файлов на S3: локальный файл против HDFS

Простой возраст старая проблема загрузки файлов s3 с помощью Java с небольшим твист

S3 не поддерживает потоковую передачу данных (AFAIK), поэтому данные должны группироваться в файлы определенного размера до его загрузки.

При создании этих временных файлов, упомянутых выше, есть несколько вариантов, насколько расположение обеспокоен

локально в некоторых назначенных каталогах
Локально в HDFS (если что-то подобное, что это возможно, я не знают даже H от Hadoop)
К HDFS в Hadoop кластера

Вопрос

Какой, вероятно, будет быстрее?
Есть ли преимущество в использовании HDFS (локального или кластерного) и локальной FS, а HDFS - ближе к природе в формате S3?

Технология и инфраструктура

EC2, Linux, Java

источник

2016-09-23 Confused

Если у вас достаточно места на диске локально, просто сделать это на месте. В противном случае вы можете объединить данные в хранилищах, которые вам нужны на HDFS, а затем загрузить их. Однако HDFS не должен быть вашим первым курортом здесь.

источник

2016-09-23 18:21:51

Могу ли я узнать, почему вы не рекомендуете HDFS? – Confused

HDFS просто не предназначен для этого, и, если это возможно, было бы быстрее выполнить всю работу с файлами на диске. –

Да, в конечном итоге с использованием локальной FS и загрузки в S3 окончательный сжатый файл – Confused

Сохранение файлов на S3: локальный файл против HDFS

ответ

Смежные вопросы