Я хочу, чтобы очистить названия стран и столиц стран, из этой ссылке: https://en.wikipedia.org/wiki/List_of_national_capitals_in_alphabetical_orderВеб соскоб с BeautifulSoup
От HTML код, я ищу все эти:
from bs4 import BeautifulSoup
import requests
BASE_URL = "https://en.wikipedia.org/wiki/List_of_national_capitals_in_alphabetical_order"
html = requests.get(BASE_URL).text
soup = BeautifulSoup(html, "html.parser")
countries = soup.find_all("td")
print (countries)
Но я не знаю, как на самом деле получить то, что находится между тегами, тем более, что в них нет информации.
Я чувствую, что это довольно просто, но я не могу понять все учебники, так как они используют классы, и эта страница вики не имеет классов для ее информации внутри таблицы.
Вы можете использовать любой допустимый идентифицирующий признак, чтобы выбрать что-то для извлечения. Возможно, вам следует обновить свой вопрос с кратким анализом страницы, которую вы пытаетесь манипулировать. Некоторые общие, но хрупкие подходы - «найти третью таблицу на странице» или «найти таблицу после заголовка первого подраздела», но, возможно, вы можете придумать что-то более надежное. – tripleee