Скребковый сайт с китайскими символами. Как мне ломать chineese simbolse ??Кодировать ошибку соскабливания
from urllib.request import urlopen
from urllib.parse import urljoin
from lxml.html import fromstring
URL = 'http://list.suning.com/0-258003-0.html'
ITEM_PATH = '.clearfix .product .border-out .border-in .wrap .res-info .sell-point'
def parse_items():
f = urlopen(URL)
list_html = f.read().decode('utf-8')
list_doc = fromstring(list_html)
for elem in list_doc.cssselect(ITEM_PATH):
a = elem.cssselect('a')[0]
href = a.get('href')
title = a.text
em = elem.cssselect('em')[0]
title2 = em.text
print(href, title, title2)
def main():
parse_items()
if __name__ == '__main__':
main()
Ошибка выглядит так. Ошибка выглядит выглядит это ошибка, как выглядит эта ошибка, как это ошибка выглядит так
http://product.suning.com/0000000000/146422477.html Traceback (most recent call last):
File "parser.py", line 27, in <module>
main()
File "parser.py", line 24, in main
parse_items()
File "parser.py", line 20, in parse_items
print(href, title, title2)
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-2: ordinal not in range(128)
пожалуйста обеспечивают полный стек ошибок для кода, который вы дали нам в этом вопросе – DomTomCat
у меня есть некоторые проблемы с UTF-8. добавлено –
Возможно, этот ответ [http://stackoverflow.com/questions/9942594/unicodeencodeerror-ascii-codec-cant-encode-character-u-xa0-in-position-20](http://stackoverflow.com/questions/9942594/unicodeencodeerror-ascii-codec-can-encode-character-u-xa0-in-position-20) может вам помочь. – gzc