Небольшие файлы проблема для обработки Hadoop читать here
Проблемы с маленькими файлами и HDFS
Небольшой файл является один, который значительно меньше, чем размер блока HDFS (по умолчанию 64 МБ). Если вы храните небольшие файлы, у вас, вероятно, их много (иначе вы бы не стали обращаться к Hadoop), и проблема в том, что HDFS не может обрабатывать множество файлов.
Каждый файл, каталог и блок в HDFS представлен как объект в памяти памяти, каждый из которых занимает 150 байт, как правило. Таким образом, 10 миллионов файлов, каждый из которых использует блок, будут использовать около 3 гигабайт памяти. Масштабирование намного выше этого уровня - проблема с текущим оборудованием. Конечно, миллиард файлов невозможен.
Проблемы с маленькими файлами и MapReduce
Карта задачи, как правило, обрабатывать блок ввода в то время (с использованием FileInputFormat по умолчанию). Если файл очень мал и их много, тогда каждая задача карты обрабатывает очень мало ввода, и есть намного больше задач карты, каждая из которых налагает дополнительные накладные расходы. Сравните 1 ГБ файл, разбитый на 16 64 МБ блоков и 10000 или около 100 КБ файлов. 10 000 файлов используют по одной карте каждый, а время работы может быть в десятки или сотни раз медленнее, чем эквивалентное, с одним входным файлом.
Ссылка: http://blog.cloudera.com/blog/2009/02/the-small-files-problem/
Надежда, что помогает
Просьба уточнить. В чем проблема? Или вы просто спрашиваете: «Какие типы данных могут быть такими большими»? – mrueg