2016-09-23 2 views
0

фонСохранение файлов на S3: локальный файл против HDFS

Простой возраст старая проблема загрузки файлов s3 с помощью Java с небольшим твист

S3 не поддерживает потоковую передачу данных (AFAIK), поэтому данные должны группироваться в файлы определенного размера до его загрузки.

При создании этих временных файлов, упомянутых выше, есть несколько вариантов, насколько расположение обеспокоен

  1. локально в некоторых назначенных каталогах
  2. Локально в HDFS (если что-то подобное, что это возможно, я не знают даже H от Hadoop)
  3. К HDFS в Hadoop кластера

Вопрос

  1. Какой, вероятно, будет быстрее?
  2. Есть ли преимущество в использовании HDFS (локального или кластерного) и локальной FS, а HDFS - ближе к природе в формате S3?

Технология и инфраструктура

EC2, Linux, Java

ответ

1

Если у вас достаточно места на диске локально, просто сделать это на месте. В противном случае вы можете объединить данные в хранилищах, которые вам нужны на HDFS, а затем загрузить их. Однако HDFS не должен быть вашим первым курортом здесь.

+0

Могу ли я узнать, почему вы не рекомендуете HDFS? – Confused

+0

HDFS просто не предназначен для этого, и, если это возможно, было бы быстрее выполнить всю работу с файлами на диске. –

+0

Да, в конечном итоге с использованием локальной FS и загрузки в S3 окончательный сжатый файл – Confused

Смежные вопросы