import requests
from bs4 import BeautifulSoup
import csv
from urlparse import urljoin
import urllib2
from lxml import html
base_url = 'http://www.pro-football-reference.com' # base url for concatenation
data = requests.get("http://www.pro-football-reference.com/years/2014/games.htm") #website for scraping
soup = BeautifulSoup(data.content)
list_of_cells = []
for link in soup.find_all('a'):
if link.has_attr('href'):
if link.get_text() == 'boxscore':
url = base_url + link['href']
for x in url:
response = requests.get('x')
html = response.content
soup = BeautifulSoup(html)
table = soup.find('table', attrs={'class': 'stats_table x_large_text'})
for row in table.findAll('tr'):
for cell in row.findAll('td'):
text = cell.text.replace(' ', '')
list_of_cells.append(text)
print list_of_cells
Я использую код, чтобы получить все коды boxscore от http://www.pro-football-reference.com/years/2014/games.htm. После того, как я получу эти теги boxscore, я хотел бы пропустить их, чтобы очистить данные за квартал за каждую команду, но мой синтаксис всегда кажется вне зависимости от того, как я форматирую код.Синтаксические проблемы при очистке данных
Если возможно, я хотел бы очистить больше, чем только данные о погоде, также получая информацию о игре, должностных лиц и ожидаемые очки за игру.