Есть ли разница между наличием n файлов с 1 строкой в каждой папке ввода и с 1 файлом с n строками во входной папке при запуске hadoop?Входные файлы Hadoop
Если есть n файлов, «InputFormat» просто видит все это как один непрерывный файл?
Есть ли разница между наличием n файлов с 1 строкой в каждой папке ввода и с 1 файлом с n строками во входной папке при запуске hadoop?Входные файлы Hadoop
Если есть n файлов, «InputFormat» просто видит все это как один непрерывный файл?
Есть большая разница. Он часто упоминается как «проблема с маленькими файлами» и связан с тем, что Hadoop рассчитывает разделить гигантские входы на более мелкие задачи, но не собирать небольшие входы в более крупные задачи.
Взгляните на этом блоге от Cloudera: http://www.cloudera.com/blog/2009/02/02/the-small-files-problem/
Если вы можете избежать создания большого количества файлов, сделайте это. Объедините, когда это возможно. Большие сплит-файлы намного лучше для Hadoop.
Я когда-то бежал Свинья по набору данных netflix. Для обработки всего нескольких концертов потребовалось несколько часов. Затем я конкатенировал входные файлы (я думаю, что это был файл для фильма или файл для каждого пользователя) в один файл - мой результат за считанные минуты.