Я работаю над проектом, где я пытаюсь очистить данные с этой страницы Википедии, мне нужна колонка с годами (которая, как представляется, <th>
) и четвертая колонка «Уолт Дисней Парки и Курорт».Не могу получить Web Scrape, чтобы очистить все необходимые данные
Код:
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("https://en.wikipedia.org/wiki/The_Walt_Disney_Company#Revenues")
bsObj = BeautifulSoup(html, "html.parser")
t = open("scrape_project.txt", "w")
year = bsObj.find("table", {"class":"wikitable"}).tr.next_sibling.next_sibling.th
money = bsObj.find("table", {"class":"wikitable"}).td.next_sibling.next_sibling.next_sibling.next_sibling
for year_data in year:
year.sup.clear()
print(year.get_text())
for revenue in money:
print(money.get_text())
t.close()
Прямо сейчас, когда я запускаю его через терминал все, что печатает в 1991 (дважды) и 2794. Мне нужно, чтобы он печатал все годы и связанные с ними доходы от парков и курортов Уолта Диснея. Я также пытаюсь заставить его написать файл «scrape_project.tx»
Любая помощь будет оценена!