Я пытаюсь очистить данные, хранящиеся в таблице этой страницы wikipedia https://en.wikipedia.org/wiki/Minister_of_Agriculture_(India). Однако я не в состоянии очистить полную информацию Hers это то, что я написал до сих пор:Скребок Wiki с использованием python
from bs4 import BeautifulSoup
import urllib2
wiki = "https://en.wikipedia.org/wiki/Minister_of_Agriculture_(India)"
header = {'User-Agent': 'Mozilla/5.0'} #Needed to prevent 403 error on Wikipedia
req = urllib2.Request(wiki,headers=header)
page = urllib2.urlopen(req)
soup = BeautifulSoup(page,"html.parser")
name = ""
pic = ""
strt = ""
end = ""
pri = ""
x=""
table = soup.find("table", { "class" : "wikitable" })
for row in table.findAll("tr"):
cells = row.findAll("td")
if len(cells) == 8:
name = cells[0].find(text=True)
print name`
Выход полученный: Джейрамдас Даулатрам, Сурджит Сингх Барнала, Рао Бирендра Сингх
В то время как выход должен быть : Jairamdas Daulatram, а затем Panjabrao Deshmukh
В дополнение к тому, чтобы сообщить ему, что он * не может сделать, сказать ему, что он * может * сделать. Например, он может заменить 'if len (cells) == 8'' if len (cells)> 0'. –