У меня вопрос относительно разбора HTML с помощью BeautifulSoup. Веб-сайт, который я пытаюсь проанализировать, следующий: http://www.auc.nl/news-events/events-and-lectures/events-and-lectures.html?page=1&pageSize=40python разбор с красивым супом
Сначала мне нужно было написать функцию, которая даст мне все h3-теги и все p-теги. Я сделал это следующим образом:
from bs4 import BeautifulSoup
import urllib2
website=urllib2.urlopen("http://www.auc.nl/news-events/events-and-lectures/events-and-lectures.html","r")
def parseUsingSoup2(content):
list1=soup.findAll('h3')
list2=soup.findAll('p')
return list1+list2
parseUsingSoup2(website)
Следующая часть проблемы запрашивает список событий (есть только одно событие, хотя на сайте) с 4-кортежей: временной интервал, название, тип и описание.
Я действительно не знаю, как начать с этого. Моя первая попытка была такова:
def GeneratingListofEvents(content):
event={}
list=['time', 'title', 'feature', 'description']
for item in list:
Однако, я понятия не имею, если это идет в правильном направлении, и мне не удалось получить, например, время от HTML документа, не печатая его вручную. Заранее спасибо.