Я могу очистить страницу до заголовков, никаких проблем. URL-адреса - это еще одна история. Они представляют собой фрагменты, которые получают приложенные на конце базового URL - Я понимаю, что ... Что мне нужно, чтобы тянуть связанные URL-адрес для хранения в формате - base_url.scraped_fragmentСкремблирование страницы для URL-адресов с помощью Beautifulsoup
from urllib2 import urlopen
import requests
from bs4 import BeautifulSoup
import csv
import MySQLdb
import re
html = urlopen("http://advances.sciencemag.org/")
soup = BeautifulSoup(html.read().decode('utf-8'),"lxml")
#links = soup.findAll("a","href")
headlines = soup.findAll("div", "highwire-cite-title media__headline__title")
for headline in headlines:
text = (headline.get_text())
print text
работает отлично! для отслеживания, если бы я хотел, чтобы URL-адрес был соединен с заголовком, например: Ван-дер-Ваальс: соединение металл-полупроводник: слабое закрепление уровня Ферми обеспечивает эффективную настройку барьера Шоттки, http://advances.sciencemag.org/content/2/4/e1600069 как это выглядело бы? –
@citramaillo, который вы можете получить из 'headline.get_text()', проверьте его. Благодарю. – alecxe