У меня есть огромное количество JSon файлов,> размер 100TB в общей сложности, каждый из JSON файл сжатого bzip'ый 10GB, и каждая строка содержат объект JSON, и они хранятся на s3Анализируя огромное количество JSON файлов на S3
Если я хочу преобразовать json в csv (также сохраненный на s3), поэтому я могу импортировать их в redshift напрямую, пишет собственный код, используя hasoop единственный выбор?
Можно ли сделать adhoc-запрос в json-файле без преобразования данных в другой формат (так как я не хочу сначала преобразовывать их в другой формат каждый раз, когда мне нужно делать запрос по мере того, как источник растет)
Спасибо, но так как мой JSON является bziped, поэтому полагаю, мне нужно, чтобы извлечь его, прежде чем я могу использовать JsonSerde? – Ryan
Улей не должен иметь никаких проблем, автоматически вычисляя сжатие и работая с ним. https://cwiki.apache.org/confluence/display/Hive/CompressedStorage – Bryan