Я использую python2.7 и lxml. Мой код нижеОшибка Python: кодек 'utf8' не может декодировать байт 0x92 в позиции 85: недопустимый стартовый байт
import urllib
from lxml import html
def get_value(el):
return get_text(el, 'value') or el.text_content()
response = urllib.urlopen('http://www.edmunds.com/dealerships/Texas/Frisco/DavidMcDavidHondaofFrisco/fullsales-504210667.html').read()
dom = html.fromstring(response)
try:
description = get_value(dom.xpath("//div[@class='description item vcard']")[0].xpath(".//p[@class='sales-review-paragraph loose-spacing']")[0])
except IndexError, e:
description = ''
Кодекса аварий внутри попытки, давая ошибку
UnicodeDecodeError at/
'utf8' codec can't decode byte 0x92 in position 85: invalid start byte
Строка, которая не может быть кодировать/декодировать был: ouldnt быть
У меня есть пытался использовать множество методов, включая .encode ('utf8'), но никто не решает проблему. У меня 2 вопроса:
- Как решить эту проблему
- Как мой крах приложения, когда код проблемы заключается между попыткой кроме
Сообщение весь отслеживающий, а не только последняя строка этого. – Kylotan
Снимок для ответа @ Marcin. Проверка кодировки веб-страницы действительно полезна для отладки ошибок кодирования. [1] [1] [[введите описание изображения здесь] [1]]: http://i.stack.imgur.com/jVHTy.png –