Я новичок в python и пытаюсь использовать urllib2/lxml для извлечения и анализа страницы. Кажется, что все работает нормально, за исключением того, что проанализированная страница, открытая в моем браузере, кажется, содержит в себе странные символы. Я предполагаю, что это проблема синтаксического анализа unicode/lxml. Когда я получаю текстовое содержимое элемента, используя .text_content(), и печатаю его, я получаю такие вещи, как «sometext \ 342 \ 200 \ 223 moretext» на исходной странице, это показывает как «sometext - moretext»Проблемы с кодировкой urllib2/lxml
Может ли кто-нибудь мне сказать:
1. Что происходит?
2. Как его исправить?
3. Где я могу узнать о таких проблемах с кодировкой?
Спасибо!
Не могли бы вы привести пример? Либо код, либо точные результаты, а не просто «такие вещи, как« blabla »» или, желательно, оба. Кроме того, мы говорим о python 2 или 3? –
вы можете вставить код и показать, что именно происходит? –