2015-04-02 5 views
0

У меня вопрос о двоичном типе данных. Я пытаюсь написать Parquet Schema для моей работы с MR, чтобы создать файл Parquet вопреки тому, чтобы создать Hive или Impala. Я вижу некоторые ссылки на двоичный тип, который я не вижу в ParquetПаркет Двоичный Тип данных

Является ли двоичный псевдоним BYTE_ARRAY?

Также является ли UTF-8 кодировкой по умолчанию для двоичных типов данных?

ответ

3

Исходные байты хранятся в Парке либо в виде байтового массива с фиксированной длиной (FIXED_LEN_BYTE_ARRAY), либо в виде массива байтов переменной длины (BYTE_ARRAY, также называемого двоичным). Фиксированный используется, когда у вас есть значения с постоянным размером, например хэш-значение SHA1. В большинстве случаев используется версия переменной длины.

Строки кодируются как двоичные файлы переменной длины с аннотацией типа UTF8, чтобы указать, как интерпретировать необработанные байты обратно в строку. UTF8 - единственная кодировка, поддерживаемая в формате, но не каждый бинарный использует UTF8, потому что не все двоичные поля хранят строковые данные.

Смежные вопросы