Я использую следующий код, чтобы извлечь список городов, упомянутых на этой странице, но он дает мне только первые 23 города. Не могу понять, где я иду не так!Не удалось извлечь полный список городов
import requests,bs4
res=requests.get('http://www.citymayors.com/statistics/largest-cities-population-125.html')
text=bs4.BeautifulSoup(res.text,"lxml")
fields=text.select('td[bgcolor="silver"] > font[size="-2"] > b')
print len(fields)
for field in fields:
print field.getText()
Это выход я получаю:
23
Tokyo/Yokohama
New York Metro
Sao Paulo
Seoul/Incheon
Mexico City
Osaka/Kobe/Kyoto
Manila
Mumbai
Delhi
Jakarta
Lagos
Kolkata
Cairo
Los Angeles
Buenos Aires
Rio de Janeiro
Moscow
Shanghai
Karachi
Paris
Istanbul
Nagoya
Beijing
Но эта страница содержит 125 городов.
Использование 'html.parser' вместо' lxml', я получаю 124 –
Я тоже получаю 124. Отсутствующий город - это Damman в строке 120. Может иметь какое-то отношение к пространству ' Damman '? – Jarad