Я хочу получить все названия() на веб-сайте.Скремблирование «N» страниц с помощью Beautifulsoup и запросов (как получить истинный номер страницы)
http://www.shyan.gov.cn/zwhd/web/webindex.action
Теперь мой код успешно удаляет только одну страницу. Тем не менее, есть несколько страниц, доступных на сайте выше, в котором я хотел бы очистить.
Например, с указанным выше адресом, когда я нажимаю ссылку на «страница 2», общий URL-адрес НЕ изменяется. Я посмотрел на источник страницы и увидел код javascript для перехода на следующую страницу: javascript: gotopage (2) или javascript: void (0). Мой код здесь (получить страницу 1)
from bs4 import Beautifulsoup
import requests
url = 'http://www.shyan.gov.cn/zwhd/web/webindex.action'
r = requests.get(url)
soup = Beautifulsoup(r.content,'lxml')
titles = soup.select('td.tit3 > a')
for title in titles:
print(title.get_text())
Как мой код будет изменен, чтобы очистить от названия всех доступных перечисленных страниц? Большое спасибо!
Спасибо большое! Но я не могу получить следующую страницу. Мой код ниже. Пожалуйста, помогите мне изменить его. –