У меня есть тысяча двоичных файлов в формате сжатия, и каждый файл необходимо декодировать отдельно за один проход. Максимальный размер файла - 500 МБ. В настоящее время я могу делать декодирование файлов один за другим с помощью python (с пакетом struct). Но так как количество файлов огромно по количеству и размеру, поэтому его невозможно декодировать файл последовательно.Декодировать набор двоичных файлов с помощью Spark
Я подумываю обрабатывать эти данные в искры, но у меня нет большого опыта в искре. Можете ли вы предложить, если эта задача может быть выполнена в искры. Спасибо заранее.
Спасибо. +1 для этого. Его работа отлично, если данные находятся в несжатом двоичном формате. Но не работает со сжатыми двоичными файлами (* .dat.gz). Не могли бы вы посоветовать мне, как работать с тем же. – rks
Я внес изменения, чтобы иметь возможность распаковывать, надеюсь, что это поможет. Обязательно повысьте и сделайте правильный ответ, если вам это понравится. – venuktan