2016-12-19 3 views
6

У меня есть ведро S3 с несколькими zip-файлами CSV (журналы использования.) Я бы хотел запросить эти данные с помощью Athena, но результат полностью искажен.Amazon Athena и сжатые файлы S3

Похоже, Athena пытается разобрать zip-файлы, не распаковывая их в первую очередь. Можно ли заставить Hive распознать мои файлы как сжатые данные?

ответ

12

Для сжатия Athena поддерживается, но поддерживаются форматы

  • Snappy (.snappy)
  • ZLib (.bz2)
  • GZIP (.gz)

Эти форматы определяются их суффиксом имени файла. Если суффикс не совпадает, читатель не расшифровывает содержимое. Я протестировал его с помощью файла test.csv.gz, и он сразу сработал. Поэтому попробуйте изменить сжатие с zip на gzip, и оно должно работать.

+0

Thanks Jens. Я боялся, что это может быть ответом. Я не могу контролировать формат в этом ковше, мне нужно запланировать задание, чтобы программно разархивировать и хранить их в другом месте. – MattY

Смежные вопросы