Мне нужно проанализировать общий код. Для этого я использую python 2.7. Я наблюдал некоторые файлы warc, в файлах warc.gz есть несколько двоичных данных. Мне нужно разобрать источник html с помощью bs4. Но как я могу обнаружить, что это текстовые данные, и это двоично. Например, существует реестр URL, содержащий двоичные данные. http://aa-download.avg.com/filedir/inst/avg_free_x86_all_2015_5315a8160.exeКак обрабатывать двоичные данные в commoncrawl с использованием python
Как я могу пропускать двоичные данные и получать только текстовые данные процесса в python?