2015-12-03 2 views
0

Есть ли какой-либо Serde для поддержки таблицы hive с символами Unicode. У нас может быть файл в UTF-8, UTF-18 и UTF-32. Это не что иное, как мы ищем поддержку разных языков, таких как японский, китайский в таблице hive. Мы должны иметь возможность загружать разные языковые данные в таблицу hiveУлива, поддерживающая символы Unicode

ответ

0

Hive может читать и писать текстовые файлы UTF-8.
для другого набора символов, он должен быть преобразован в UTF-8.
Синтаксис для преобразования является

hive> CREATE TABLE mytable(name, datatype) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' WITH SERDEPROPERTIES("serialization.encoding"='FORMAT'); 

преобразование может быть сделано с помощью Iconv, но он поддерживает только файлы меньше, чем 16G. синтаксис:

>iconv -f encoding -t encoding inputfile 
Смежные вопросы