2017-01-13 2 views
0

Мне нужно проанализировать общий код. Для этого я использую python 2.7. Я наблюдал некоторые файлы warc, в файлах warc.gz есть несколько двоичных данных. Мне нужно разобрать источник html с помощью bs4. Но как я могу обнаружить, что это текстовые данные, и это двоично. Например, существует реестр URL, содержащий двоичные данные. http://aa-download.avg.com/filedir/inst/avg_free_x86_all_2015_5315a8160.exeКак обрабатывать двоичные данные в commoncrawl с использованием python

Как я могу пропускать двоичные данные и получать только текстовые данные процесса в python?

ответ

0

Вы можете использовать python-magic для идентификации материала.

In [1]: import magic 

In [2]: magic.from_file('places.sqlite') 
Out[2]: b'SQLite 3.x database, user version 33, last written using SQLite version 3015001' 

In [3]: magic.from_file('installed-port-list.txt') 
Out[3]: b'ASCII text' 

In [4]: magic.from_file('quotes.gz') 
Out[4]: b'gzip compressed data, was "quotes", last modified: Tue Dec 6 20:35:44 2016, from Unix' 

Обратите внимание, что в то время как эти примеры используют from_file функцию, питон-магия также имеет from_buffer функцию.

Смежные вопросы