Я написал следующий пробный код, чтобы получить название законодательных актов Европейского парламента.Проблема с очисткой данных с использованием BeautifulSoup
import urllib2
from BeautifulSoup import BeautifulSoup
search_url = "http://www.europarl.europa.eu/sides/getDoc.do?type=REPORT&mode=XML&reference=A7-2010-%.4d&language=EN"
for number in xrange(1,10):
url = search_url % number
page = urllib2.urlopen(url).read()
soup = BeautifulSoup(page)
title = soup.findAll("title")
print title
Однако всякий раз, когда я запускаю его я получаю следующее сообщение об ошибке:
Traceback (most recent call last):
File "<stdin>", line 20, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character u'\u2013' in position 70: ordinal not in range(128)
я сузил его до BeautifulSoup не в состоянии прочитать четвертый документ в цикле. Может ли кто-нибудь объяснить мне, что я делаю неправильно?
С наилучшими пожеланиями
Томас
Уважаемый Unutbu, спасибо за советы, как работа для меня , Weird ... –