import urllib2
from BeautifulSoup import BeautifulSoup
result = urllib2.urlopen("http://www.bbc.co.uk/news/uk-scotland-south-scotland-12380537")
html=result.read()
soup= BeautifulSoup(html)
print soup.html.head.title
print soup.findAll('div', attrs={ "class" : "story-body"})
Проблема заключается в том, что информация, которую я хочу, находится в сюжетном корпусе, но она находится на самом дне. Так что я получаю массу информации о нежелательной информации, пока не доберусь до нее.Фильтровать результаты, используя findAll в beautifulsoup
print soup.findAll('p', attrs={ 'class' : "introduction"})
только получает меня первый <p>
есть 8 больше, чтобы собрать в этом примере
Так смотрит собрать в от начала введения до конца сюжетного тела ... Есть идеи?
не ..you're с помощью Beautiful Soup 4, вы? – thirtydot
Хорошая ссылка спасибо – aromamode
Нет, не в этом примере, думая, что я перееду на него завтра – aromamode