2015-10-23 2 views
1

Hadoop - The Definitive Guide говоритЧто такое двоичные типы в hadoop?

Если вы хотите войти бинарный тип, простой текст не подходящий формат.

Мои вопросы 1. Почему бы и нет? 2. Что такое двоичные типы?

и далее:

SequenceFileclass Hadoop вписывается счет в этой ситуации, обеспечивая постоянную структуру данных для бинарных пар ключ-значение. Чтобы использовать его в качестве формата журнала , вы должны выбрать ключ, например, отметку времени с помощью LongWritable, а это значение Writable, которое представляет регистрируемое количество .

Почему текстовый файл не может использоваться и файл последовательности не требуется?

ответ

0

На той же странице, он цитирует, что:

Для некоторых приложений, вам нужен специализированная структура данных для хранения данных. Для выполнения Обработка на основе MapReduce, поместив каждый кусок двоичных данных в собственный файл, не имеет масштаба , поэтому Hadoop разработал несколько контейнеров более высокого уровня для этих ситуаций.

например. Предположим, что вы загружаете изображения в facebook, и вам нужно удалить повторяющиеся изображения. Вы не можете хранить изображение в текстовом формате. Что вы можете сделать: получите MD5SUM файла изображения, и если MD5SUM уже существует в системе, просто отмените вставку дублированного изображения. В текстовом файле вы можете просто «Дата:» и «Количество загруженных изображений». Изображение может храниться на стороне системы HDFS, такой как сеть CDN или на каком-либо другом веб-сервере

Смежные вопросы