Я пытаюсь очистить содержимое страницы Financial Times Search.Python-запросы: не удается удалить весь код html со страницы
Используя Requests, я могу легко отказаться от названий статей и гиперссылок.
Я хотел бы получить гиперссылку следующей страницы, но я не могу найти ее в ответе Запросы, в отличие от названий статей или гиперссылок. Функция
from bs4 import BeautifulSoup
import requests
url = 'http://search.ft.com/search?q=SABMiller+PLC&t=all&rpp=100&fa=people%2Corganisations%2Cregions%2Csections%2Ctopics%2Ccategory%2Cbrand&s=-lastPublishDateTime&f=lastPublishDateTime[2000-01-01T00%3A00%3A00%2C2016-01-01T23%3A59%3A59]&curations=ARTICLES%2CBLOGS%2CVIDEOS%2CPODCASTS&highlight=true&p=1et'
response = requests.get(url, auth=(my login informations))
soup = BeautifulSoup(response.text, "lxml")
def get_titles_and_links():
titles = soup.find_all('a')
for ref in titles:
if ref.get('title') and ref.get('onclick'):
print ref.get('href')
print ref.get('title')
В get_titles_and_links() дает мне названия и ссылки всех статей.
Однако, с аналогичной функцией для следующей страницы, у меня нет никаких результатов:
def get_next_page():
next_page = soup.find_all("li", class_="page next")
return next_page
Или:
def get_next_page():
next_page = soup.find_all('li')
for ref in next_page:
if ref.get('page next'):
print ref.get('page next')
Спасибо за ваш ответ, это помогло мне понять мою проблему. Я использовал модуль [https://github.com/niklasb/dryscrape], чтобы очистить веб-страницу. – Baptiste
Если это сработало, это здорово. Но обратное проектирование сетевых запросов делает концепции эффектно понятными. Но это требует времени. –
Ну, честно говоря, с быстрым поиском в Интернете, который я сделал после вашего ответа, я не нашел никаких ясных (мне) объяснений об обратном проектировании сетевых запросов. И, я должен сказать, люблю быстрое и простое решение. – Baptiste