2015-12-04 3 views
0

У меня есть 3 сжатых файла LZO и соответствующие им индексные файлы в HDFS.Проблема с файлами LZO на S3

Permission Owner Group Size Replication Block Size Name 
-rw-r--r-- alum supergroup 0 B 3 128 MB _SUCCESS 
-rw-r--r-- alum supergroup 192.29 MB 3 128 MB part-00000.lzo 
-rw-r--r-- alum supergroup 89.56 KB 3 128 MB part-00000.lzo.index 
-rw-r--r-- alum supergroup 243.09 MB 3 128 MB part-00001.lzo 
-rw-r--r-- alum supergroup 106.67 KB 3 128 MB part-00001.lzo.index 
-rw-r--r-- alum supergroup 163.99 MB 3 128 MB part-00002.lzo 
-rw-r--r-- alum supergroup 70.54 KB 3 128 MB part-00002.lzo.index 

Мы скопировали эти файлы в Amazon S3 и создали внешнюю таблицу Hive для аналитики.

Вот проблемы, с которыми мы сталкиваемся,

1) LZO index files are also being treated as data files and meaningless data appears in hive tables 
2) "count(*)" query on the table spans only 4 mappers. Indicating problem in splitting. 

Не могли бы вы, пожалуйста, дайте мне, что происходит на S3? Он отлично работает в нашем кластере YARN.

ответ

0

s3 обрабатывается иначе, чем HDFS. Сплит-логику не следует применять, как в HDFS. Помните, что s3 - облачное хранилище, где HDFS не является локальным хранилищем. Ваши файлы не будут в форме блоков в s3. Такое поведение ожидается.

Смежные вопросы