2013-03-31 6 views
0

У меня вопрос относительно разбора HTML с помощью BeautifulSoup. Веб-сайт, который я пытаюсь проанализировать, следующий: http://www.auc.nl/news-events/events-and-lectures/events-and-lectures.html?page=1&pageSize=40python разбор с красивым супом

Сначала мне нужно было написать функцию, которая даст мне все h3-теги и все p-теги. Я сделал это следующим образом:

from bs4 import BeautifulSoup 
    import urllib2 
    website=urllib2.urlopen("http://www.auc.nl/news-events/events-and-lectures/events-and-lectures.html","r") 

    def parseUsingSoup2(content): 
     list1=soup.findAll('h3') 
     list2=soup.findAll('p') 
     return list1+list2   

    parseUsingSoup2(website) 

Следующая часть проблемы запрашивает список событий (есть только одно событие, хотя на сайте) с 4-кортежей: временной интервал, название, тип и описание.

Я действительно не знаю, как начать с этого. Моя первая попытка была такова:

def GeneratingListofEvents(content): 
     event={} 
     list=['time', 'title', 'feature', 'description'] 
     for item in list: 

Однако, я понятия не имею, если это идет в правильном направлении, и мне не удалось получить, например, время от HTML документа, не печатая его вручную. Заранее спасибо.

ответ

0

Обратите внимание, как всю информацию, вам нужно в <div class="agendaright">

from bs4 import BeautifulSoup 
import urllib2 
html = urllib2.urlopen("http://www.auc.nl/news-events/events-and-lectures/events-and-lectures.html","r") 
soup = BeautifulSoup(html) 

all = soup.find('div',class_="agendaright") 
time = all.find('span',class_="event-time").text 
# u'18:00 - 20:00' 
title = all.h3.text 
# u'Images Without Borders Violence, Visuality, and Landscape in Postwar Ambon, Indonesia' 
feature = all.find('span',class_="feature").text 
# u' | Lecture' 
description = all.find('p',class_="event-description").text 
# u'This lecture explores the thematization of the visual and expansion of\nits terrain exemplified by the gigantic hijacked billboards with Jesus\nfaces and the painted murals with Christian themes which arose during\nthe ...' 

l = [time,title,feature,description]