Как я могу избежать явного декодирования контента?

Я понимаю, что .encode('utf-8') необходим.Как я могу избежать явного декодирования контента?

# -*- coding: utf-8 -*- 
import urllib2 
url = u'https://fr.wikipedia.org/wiki/Nîmes' 
response = urllib2.urlopen(url.encode('utf-8')) 
content = response.read().decode('utf-8') 
print type(content)

Но как мне избежать .decode('utf-8')? В конце концов, страница, о которой идет речь, правильно объявляет ее кодировку в заголовке.

источник

2016-03-03 Calaf

Вы можете использовать requests:

# -*- coding: utf-8 -*- 

import requests 
url = u'https://fr.wikipedia.org/wiki/Nîmes' 
response = requests.get(url) 
content = response.content 
text = response.text 
assert type(content) == str 
assert type(text) == unicode

источник

2016-03-03 21:51:44

Как вы говорите, в вашем вопросе, вы можете получить кодировку из заголовков, чтобы избежать жесткого кодирования кодирования:

content = response.read().decode(response.headers.getparam('charset'))

источник

2016-03-04 00:53:59 ekhumoro

Мне нравится минимальные API-интерфейсы, но это делает urllib2 довольно неполным API. – Calaf

Как я могу избежать явного декодирования контента?

ответ

Смежные вопросы