Я пытаюсь очистить список URL из Законодательной обсерватории Европейского парламента. Я не использую ни одного ключевого слова поиска, чтобы получить все ссылки на документы (в настоящее время 13172). Я могу легко очистить список первых 10 результатов, которые отображаются на веб-сайте, используя приведенный ниже код. Тем не менее, я хочу иметь все ссылки, чтобы мне не нужно было так или иначе нажимать кнопку следующей страницы. Пожалуйста, дайте мне знать, знаете ли вы, как это сделать.Показать все результаты поиска, когда веб-скребок с Python
import requests, bs4, re
# main url of the Legislative Observatory's search site
url_main = 'http://www.europarl.europa.eu/oeil/search/search.do?searchTab=y'
# function gets a list of links to the procedures
def links_to_procedures (url_main):
# requesting html code from the main search site of the Legislative Observatory
response = requests.get(url_main)
soup = bs4.BeautifulSoup(response.text) # loading text into Beautiful Soup
links = [a.attrs.get('href') for a in soup.select('div.procedure_title a')] # getting a list of links of the procedure title
return links
print(links_to_procedures(url_main))
Спасибо! Это работает отлично. – philipp