фонСохранение файлов на S3: локальный файл против HDFS
Простой возраст старая проблема загрузки файлов s3 с помощью Java с небольшим твист
S3 не поддерживает потоковую передачу данных (AFAIK), поэтому данные должны группироваться в файлы определенного размера до его загрузки.
При создании этих временных файлов, упомянутых выше, есть несколько вариантов, насколько расположение обеспокоен
- локально в некоторых назначенных каталогах
- Локально в HDFS (если что-то подобное, что это возможно, я не знают даже H от Hadoop)
- К HDFS в Hadoop кластера
Вопрос
- Какой, вероятно, будет быстрее?
- Есть ли преимущество в использовании HDFS (локального или кластерного) и локальной FS, а HDFS - ближе к природе в формате S3?
Технология и инфраструктура
EC2, Linux, Java
Могу ли я узнать, почему вы не рекомендуете HDFS? – Confused
HDFS просто не предназначен для этого, и, если это возможно, было бы быстрее выполнить всю работу с файлами на диске. –
Да, в конечном итоге с использованием локальной FS и загрузки в S3 окончательный сжатый файл – Confused