Ошибка Python: кодек 'utf8' не может декодировать байт 0x92 в позиции 85: недопустимый стартовый байт

Я использую python2.7 и lxml. Мой код нижеОшибка Python: кодек 'utf8' не может декодировать байт 0x92 в позиции 85: недопустимый стартовый байт

import urllib 
from lxml import html 

def get_value(el): 
    return get_text(el, 'value') or el.text_content() 

response = urllib.urlopen('http://www.edmunds.com/dealerships/Texas/Frisco/DavidMcDavidHondaofFrisco/fullsales-504210667.html').read() 
dom = html.fromstring(response) 

try: 
    description = get_value(dom.xpath("//div[@class='description item vcard']")[0].xpath(".//p[@class='sales-review-paragraph loose-spacing']")[0]) 
except IndexError, e: 
    description = ''

Кодекса аварий внутри попытки, давая ошибку

UnicodeDecodeError at/
'utf8' codec can't decode byte 0x92 in position 85: invalid start byte

Строка, которая не может быть кодировать/декодировать был: ouldnt быть

У меня есть пытался использовать множество методов, включая .encode ('utf8'), но никто не решает проблему. У меня 2 вопроса:

Как решить эту проблему
Как мой крах приложения, когда код проблемы заключается между попыткой кроме

источник

2012-04-18 Zain Khan

Сообщение весь отслеживающий, а не только последняя строка этого. – Kylotan

Снимок для ответа @ Marcin. Проверка кодировки веб-страницы действительно полезна для отладки ошибок кодирования. [1] [1] [[введите описание изображения здесь] [1]]: http://i.stack.imgur.com/jVHTy.png –

Страница подается с charset=ISO-8859-1. Декодируем от этого до unicode.

[ Snapshot of details from a browser. Credit @Old Panda]

источник

2012-04-18 14:16:57 Marcin

Я пробовал .decode ('iso-8859-1'), но все равно падает –

@mangobug Если вы не покажете фактический код, включая вызов декодирования, никто не сможет вам помочь. – Marcin

- пропустить символы на ошибках, или правильно декодировать его в Юникоде.
- вы только поймать IndexError, а не UnicodeDecodeError

источник

2012-04-18 14:13:13 ch3ka

Ваш исключением пункта обрабатывает только исключения типа IndexError. Проблема заключалась в UnicodeDecodeError, который не является IndexError, поэтому исключение не обрабатывается этим исключением.

Также неясно, что делает «get_value», и это может быть причиной возникновения реальной проблемы.

источник

2012-04-18 14:14:17 Kylotan

Я обновил свой код 'get_value' –

Это не очень помогает, потому что теперь у нас есть функция get_text, которую мы не понимаем. И у нас еще нет полной трассы. Вам нужно предоставить полный контекст, иначе люди просто должны угадать проблему. – Kylotan

декодировать ответ на unicode, правильно обрабатывать ошибки (игнорировать при ошибке) перед синтаксическим анализом fromhtml.
уловить UnicodeDecodeError или все ошибки.

источник

2012-04-18 14:14:21

Ответ заключается не в том, чтобы поймать все ошибки. Вот как вы скрываете ошибки в своей программе. – agf

Ошибка Python: кодек 'utf8' не может декодировать байт 0x92 в позиции 85: недопустимый стартовый байт

ответ

Смежные вопросы