Как обрабатывать кодирование ответа от urllib.request.urlopen()

Я пытаюсь искать веб-страницы, используя регулярные выражения, но я получаю следующее сообщение об ошибке:Как обрабатывать кодирование ответа от urllib.request.urlopen()

TypeError: can't use a string pattern on a bytes-like object

Я понимаю, почему, URLLIB. request.urlopen() возвращает поток bytestream, и поэтому, по крайней мере, я предполагаю, re не знает кодировку. Что я должен делать в этой ситуации? Есть ли способ указать метод кодирования в urlrequest, может быть, мне нужно будет перекодировать строку самостоятельно? Если да, то что я хочу сделать, я полагаю, что я должен прочитать кодировку из информации заголовка или типа кодировки, если она указана в html, а затем перекодировать ее на это?

источник

2011-02-13 kryptobs2000

Вам просто нужно декодировать ответ, используя заголовок Content-Type, как правило, последнее значение. Приведен пример, приведенный в the tutorial.

output = response.decode('utf-8')

источник

2011-02-13 02:09:29

Спасибо, вот что мне нужно. – kryptobs2000

Что делать, если кодировка не является utf-8? Было бы лучшей идеей как-то определить это из ответа вместо жесткого кодирования этого предположения? –

после того, как вы сделаете запрос req = urllib.request.urlopen(...), вы должны прочитать запрос, вызвав html_string = req.read(), который даст вам ответ строки, который вы сможете проанализировать так, как хотите.

источник

2011-02-13 02:09:00

Я делаю, вот как я его получаю, но он возвращает bytesteam, b ' ...'. – kryptobs2000

Я вижу, то вы можете использовать '.decode()', как указал @Senthil, или вы можете использовать urllib2, который должен прозрачно обращаться с вами. –

urllib.urlopen(url).headers.getheader('Content-Type')

Выведет что-то вроде этого:

text/html; charset=utf-8

источник

2011-12-01 16:48:24 wynemo

Что касается меня, то решение выглядит следующим образом (python3):

resource = urllib.request.urlopen(an_url) 
content = resource.read().decode(resource.headers.get_content_charset())

источник

2013-10-03 09:54:13

Похоже, лучший ответ, но что, если сервер не отправит информацию о кодировке? – rvighne

Если сервер не отправляет информацию о кодировке, лучшим вариантом в этом случае является угадать. – Iguananaut

@rvighne: если сервер не передает 'charset' в заголовке Content-Type, тогда [существуют сложные правила для определения кодировки символов] (https://blog.whatwg.org/the-road-to -html-5-character-encoding), например, он может быть указан внутри html-документа: ''. – jfs

меня были те же проблемы, за последние два дня. У меня наконец есть решение. Я использую info() метод объекта, возвращаемого urlopen():

req=urllib.request.urlopen(URL) 
charset=req.info().get_content_charset() 
content=req.read().decode(charset)

источник

2015-11-17 12:41:41 pytohs

С requests:

import requests 

response = requests.get(URL).text

источник

2016-04-28 09:18:28 xged

не один из этих ответов работать для меня в Python 3.5x, используя urllib.request потому URLLIB .request.urlopen (url) буквально возвращает ТОЛЬКО поток байтов - он не имеет функций-членов для анализа любой формы заголовка в html. Таким образом, нет информации(), нет заголовков и т. Д. Мне пришлось бы самостоятельно разобрать ее, чтобы найти кодировку, но без кодировки я не могу ее преобразовать в текст, чтобы ее разобрать. Это уловка 22.

источник

2016-12-19 22:02:18 user2465201

Как обрабатывать кодирование ответа от urllib.request.urlopen()

ответ

Смежные вопросы