Я хочу передать слишком много мелких файлов (например, файлов 200k) в zip-файл в HDFS с локальной машины. Когда я разархивирую zip-файл и транслирую файлы в HDFS, это занимает много времени. Есть ли в любом случае, я могу перенести исходный zip-файл в HDFS и разархивировать его там?Передача большого количества небольших файлов в файловую систему Hadoop
ответ
Если ваш файл находится в ГБ, то эта команда, несомненно, поможет избежать ошибок в пространстве, поскольку нет необходимости разархивировать файл в локальной файловой системе.
команда ввода в hadoop поддерживает чтение ввода от stdin. Для чтения ввода из stdin используйте '-' в качестве исходного файла.
Сжатый файла: compressed.tar.gz
Gunzip -c compressed.tar.gz | hasoop fs -put -/user/files/uncompressed_data
Только недостаток: Единственным недостатком этого подхода является то, что в HDFS данные будут объединены в один файл, даже если локальный сжатый файл содержит более одного файла.
http://bigdatanoob.blogspot.in/2011/07/copy-and-uncompress-file-to-hdfs.html
Правильно, но я хочу иметь одиночные файлы на HDFS, я не собираюсь их объединять. – Mohsen
- 1. Создание большого количества небольших файлов XML в Hadoop
- 2. Передача большого количества небольших файлов между EC2 и Amazon S3
- 3. Hadoop Распределить файловую систему
- 4. Объединение большого количества небольших файлов для ввода mapreduce
- 5. Улей: лучший подход к потреблению большого количества небольших файлов XML
- 6. Слияние небольших файлов в hadoop
- 7. Как ускорить загрузку большого количества небольших файлов RDF в Sesame?
- 8. Python быстрый способ чтения большого количества небольших файлов в память?
- 9. Передача большого количества больших файлов на s3
- 10. S3 to EC2 Производительность для извлечения большого количества небольших файлов
- 11. быстрый способ сетевой передачи большого количества небольших файлов с PHP
- 12. Чтение большого количества небольших файлов с S3 очень медленно
- 13. Лучший инструмент для управления версиями для большого количества небольших файлов
- 14. Поток большого количества небольших объектов с Java
- 15. Как настроить производительность HTTPClient при обходе большого количества небольших файлов?
- 16. Большое количество небольших файлов Hadoop
- 17. Как создать постоянную файловую систему hadoop в hadoop 2.6.0
- 18. Передача большого количества небольших файлов с одного диска на другой в окнах
- 19. Производительность использования большого количества небольших VBO
- 20. html воспроизводит видео, сделанное из большого количества небольших небольших видеофайлов
- 21. HDFS - загрузка большого количества файлов
- 22. Эффективно Разбор большого количества файлов
- 23. Обработка большого количества файлов
- 24. Удаление большого количества файлов
- 25. загрузка большого количества файлов
- 26. Обработка большого количества файлов
- 27. Хранение большого количества файлов
- 28. Переименование большого количества файлов
- 29. Сканирование большого количества файлов
- 30. Настройка журнала Hadoop, чтобы избежать слишком большого количества файлов журнала
Почему вы будете быстрее? –
С помощью команды hadoop dfs -put требуется много времени передавать много мелких файлов с локальной машины. Я получил пару предупреждающих сообщений, потому что это занимает много времени, и мне также больше платят Amazon. Разархивировать файл в одной и той же файловой системе должен быть быстрее, чем обычно копировать из файловой системы в другую. – Mohsen