Код:Ошибка при печати Царапины веб-страницы через BS4
import requests
import urllib
from bs4 import BeautifulSoup
page1 = urllib.request.urlopen("http://en.wikipedia.org/wiki/List_of_human_stampedes")
soup = BeautifulSoup(page1)
print(soup.get_text())
print(soup.prettify())
Ошибка:
Traceback (most recent call last):
File "C:\Users\sony\Desktop\Trash\Crawler Try\try2.py", line 9, in <module>
print(soup.get_text())
File "C:\Python34\lib\encodings\cp1252.py", line 19, in encode
return codecs.charmap_encode(input,self.errors,encoding_table)[0]
UnicodeEncodeError: 'charmap' codec can't encode character '\u014d' in position 10487: character maps to <undefined>
Я думаю, что проблема заключается в основном с пакетом urlib. Здесь я использую пакет urllib3. Они изменили синтаксис urlopen от 2 до 3 версии, что может быть причиной ошибки. Но, как говорится, я включил только последний синтаксис. Python версии 3.4
дает этот файл ошибки "C: \ Python34 \ Lib \ кодировок \ cp1252.py", строка 19, в закодировать возврата кодеков .charmap_encode (вход, self.errors, encoding_table) [0] UnicodeEncodeError: кодек 'charmap' не может кодировать символ '\ u014d' в позиции 10487: карты символов в –
@AbhishekBhatia см. обновленный ответ. –