Я очень новичок в Python, и я пытаюсь Скрип данные с веб-сайта, но мне нужно все страницы, до сих пор у меня есть:скоблить Сайты с Python + Beautiful Soup 4 Все страницы
import requests
from bs4 import BeautifulSoup
r = requests.get ("http://www.somesite.com/records/08-jan-2016/")
r.content
soup = BeautifulSoup(r.content, "html.parser")
full_info = soup.find_all("div", {"class": "col-sm-10"})
for item in full_info : print (item.text)
Этот код печатает данные с текущей страницы, как я могу управлять данными со всех страниц и экспортироваться в файл.
С наилучшими пожеланиями
Определить «все страницы». Являются ли эти ссылки доступными рекурсивно? (т. е. вы могли бы получить их с помощью wget -r). Они разные URL-адреса? Связаны ли они друг с другом? Как вы обычно получаете ссылки? Кажется, у вас красивый BeautifulSoup. Вы можете просто использовать 'open' для записи в файл. – Kupiakos
Спасибо за ответ, url's отформатированы как даты: "http://www.somesite.com/records/08-jan-2016/" "http://www.somesite.com/records/09- jan-2016/" " http://www.somesite.com/records/10-jan-2016/ " и т. д., до сегодняшнего дня, в конце каждой страницы есть кнопка для предварительного просмотра и следующей даты. – user1385619
Откуда вы знаете, какие даты действительны? Вы просто собираетесь принять все даты или у вас есть список? – Kupiakos