0
Я пытаюсь разобрать страницу HTML, как этотpython Parsing html page: как декодировать char?
# coding: utf8
[...]
def search(self, a, b):
word = self.champ_rech_canal.get_text()
url_canal = "http://www.canalplus.fr/pid3330-c-recherche.html?rechercherSite=" + mot_canal
try:
f = urllib.urlopen(url_canal)
self.feuille_canal = f.read()
f.close()
except:
self.champ_rech_canal.set_text("La recherche a échoué")
pass
print self.feuille_canal
Результат хорош, и у меня есть, как «е» или «О» Как я могу расшифровать его? Пробовал:
self.feuille_canal = self.feuille_canal.decode("utf-8")
Результат:
UnicodeDecodeError: 'utf8' codec can't decode byte 0xe9 in position 8789: invalid continuation byte
Спасибо за ваш ответ. Да, есть эта строка в HTML-коде. Могу ли я попытаться заменить его? – Guillaume
Просто используйте декодирование с '" iso-8859-1 "'. Кодирование текста не изменится волшебным образом, если вы измените текст. – Matthias
Да, Маттиас прав, вы должны декодировать кодировку, данную сайтом. – Joe