Я создаю веб-скребок для разных точек новостей. Я пытаюсь создать его для газеты The Hindu
.Веб-скребок для формирования базы данных новостей
Я хочу получать новости из различных ссылок, упомянутых в его архивах. Допустим, я хочу получать новости по ссылкам, указанных на следующий день: http://www.thehindu.com/archive/web/2010/06/19/
что 19june, 2010.
Сейчас я написал следующие строки кода:
import mechanize
from bs4 import BeautifulSoup
url = "http://www.thehindu.com/archive/web/2010/06/19/"
br = mechanize.Browser()
htmltext = br.open(url).read()
articletext = ""
soup = BeautifulSoup(htmltext)
for tag in soup.findAll('li', attrs={"data-section":"Business"}):
articletext += tag.contents[0]
print articletext
Но я не могу для получения требуемых результатов. Я в основном застрял. Может кто-нибудь помочь мне разобраться?
Не добавляйте к вашему вопросу теги 'python-2.7' и' python-3.x', что просто путает людей, какую версию Python вы используете. – jazzpi
, если вы новичок в Python, возможно, веб-искатель не самый лучший «мир привет», чтобы познакомиться –