У меня есть папка в моей системе HDFS, которая содержит текстовые файлы, сжатые с помощью кодека Snappy.Чтение Snappy Сжатые данные на HDFS от потокового Hadoop
Обычно при чтении сжатых файлов GZIP в задании Hadoop Streaming декомпрессия происходит автоматически. Однако это не происходит при использовании сжатых данных Snappy, и я не могу обрабатывать данные.
Как я могу прочитать эти файлы и обработать их в потоке Hadoop?
Большое спасибо заранее.
UPDATE:
Если я использую команду hadoop fs -text file
она работает. Проблема возникает только при использовании потоковой передачи hadoop, данные не распаковываются, прежде чем передать мой скрипт python.
Благодарим @ravwojdyla за ваш ответ. Это хороший момент, но у меня есть кодек, настроенный в моем core-site.xml. – Salias
Если я использую команду 'hasoop fs -text file', то работает. Проблема возникает только при потоковой передаче данных, данные не распаковываются перед передачей моего скрипта python. – Salias