Scrapy использует неправильную кодировку, добавляет дополнительные HTML-теги в JSON из веб-страницы

Так что я хочу использовать Scrapy, чтобы получить Puerto Rico board game data Scrapy использует неправильную кодировку, добавляет дополнительные HTML-теги в JSON из веб-страницы

Данные выглядит следующим

{ "data": { 
    ... 
    "label":"<div class=\"iblock\">\u262f &ge; 75%<\/div>" 
    ... 
    }

Однако объект response.text в Scrapy использует другую кодировку, и добавляет некоторые дополнительные HTML-теги:

<html><head></head><body> 
{"data": { 
    ... 
"label": "<div class="\&quot;iblock\&quot;">\u262f ≥ 75%&lt;\/div&gt;" 
    ... 
    } 
</div></body></html>

Как результат, когда я пытаюсь разобрать JSON в объект питона:

responseJSON = json.loads(response.xpath("/html/body/text").extract_first())

Я получаю следующее сообщение об ошибке:

ValueError: end is out of bounds

Как я могу получить Scrapy вернуть correcly закодированный ответ без каких-либо дополнительных HTML-теги?

источник

2017-02-05 Jack

показать, как вы получаете эту строку. Может быть, проблема в другом месте. Используете ли вы селен или аналогичный инструмент? – furas

json.loads(response.text)

это JSON ответ, нет необходимости использовать XPath

Испытано в Scrapy оболочке

источник

2017-02-05 18:34:01

Я пробовал это, но он дает мне ValueError («Объект JSON не может быть декодирован»). – Jack

Выяснил это. Один из моих посредников испортил это. Теперь ваш ответ работает – Jack

Scrapy использует неправильную кодировку, добавляет дополнительные HTML-теги в JSON из веб-страницы

ответ

Смежные вопросы