2009-08-03 2 views
0

Есть ли разница между наличием n файлов с 1 строкой в ​​каждой папке ввода и с 1 файлом с n строками во входной папке при запуске hadoop?Входные файлы Hadoop

Если есть n файлов, «InputFormat» просто видит все это как один непрерывный файл?

ответ

3

Есть большая разница. Он часто упоминается как «проблема с маленькими файлами» и связан с тем, что Hadoop рассчитывает разделить гигантские входы на более мелкие задачи, но не собирать небольшие входы в более крупные задачи.

Взгляните на этом блоге от Cloudera: http://www.cloudera.com/blog/2009/02/02/the-small-files-problem/

Если вы можете избежать создания большого количества файлов, сделайте это. Объедините, когда это возможно. Большие сплит-файлы намного лучше для Hadoop.

Я когда-то бежал Свинья по набору данных netflix. Для обработки всего нескольких концертов потребовалось несколько часов. Затем я конкатенировал входные файлы (я думаю, что это был файл для фильма или файл для каждого пользователя) в один файл - мой результат за считанные минуты.

Смежные вопросы