Я пытаюсь получить данные обо всех играх команды в обычном сезоне, очищенном от http://www.basketball-reference.com/boxscores/201112250DAL.html. Я получил все другие функции фермизации данных, которые работают нормально, проблема заключается в том, что я скребок скребок. Это тестовый код, который я использовал для получения URL-адреса следующей страницы. Я мог бы использовать это, чтобы получить данные из всех 66 игр, которые команда играла в течение регулярного сезона, но это много набирает, чтобы очистить его таким образом. Каким будет самое простое решение для автоматизации этого?Looping скребок
Спасибо!
URL = "http://www.basketball-reference.com/boxscores/201112250DAL.html"
html = urlopen(URL).read()
soup = BeautifulSoup(html)
def getLink(html, soup):
links = soup.findAll('a', attrs={'class': 'bold_text'})
if len(links) == 2:
a = links[0]
a = str(a)
a = a[37:51]
return a
if len(links) == 3:
a = links[1]
a = str(a)
a = a[37:51]
return a
if len(links) == 4:
a = links[3]
a = str(a)
a = a[37:51]
return a
print getLink(html, soup)
URL1 = "http://www.basketball-reference.com/boxscores" + getLink(html, soup) + "html"
print URL1
html1 = urlopen(URL1).read()
soup1 = BeautifulSoup(html1)
print getLink(html1, soup1)
Если вы просто пытаетесь разработать URL-адреса, было бы проще вместо этого просто захватить http://www.basketball-reference.com/teams/DAL/2012_games.html и буквально вычеркнуть строки, которые выглядят например "/boxscores/*.html"? Это даст вам 66 регулярных игр плюс плей-офф .. – tanantish
Это всего лишь тест, чтобы пройти через URL-адреса, в главном коде есть функции, которые учитывают статистику, интересующую каждую игру. Мне просто интересно, как сделать этот процесс как можно быстрее. – user1851527
Я думал о том, как использовать страницу /DAL/2012_games.html как ваш индекс? Вы можете получить это один раз и легко получить 66 URL-адресов, которые вам нужны, и поместить их в список, а затем подать это. Сортировка в обход всего соскабливания страницы для правильной ссылки «следующая игра» (так как я не видел никаких простые шаблоны для сравнения) – tanantish