Вы можете использовать BeautifulSoup, чтобы получить текст заголовка на странице, я позволил бы запросы обрабатывать кодирование с .content:
url = "http://rads.stackoverflow.com/amzn/click/1593271840"
html = requests.get(url).content
from bs4 import BeautifulSoup
print(BeautifulSoup(html).title.text)
with open("{}.html".format(BeautifulSoup(html).title.text), "wb") as file:
file.write(html)
The Google Way: How One Company is Revolutionizing Management As We Know It: Bernard Girard: 9781593271848: Amazon.com: Books
Для этой конкретной страницы, если вы просто хотите Путь Google: Как один Компания Революционные управления, как мы знаем название продукта в class a-size-large
:
text = BeautifulSoup(html).find("span",attrs={"class":"a-size-large"}).text
with open("{}.html".format(text), "wb") as file:
file.write(html)
связь с The-Google-Way-революционизирующее-менеджмент в теге ссылки:
link = BeautifulSoup(html).find("link",attrs={"rel":"canonical"})
print(link["href"])
http://www.amazon.com/The-Google-Way-Revolutionizing-Management/dp/1593271840
Так, чтобы получить ту часть, что вам нужно разобрать его:
print(link["href"].split("/")[3])
The-Google-Way-Revolutionizing-Management
link = BeautifulSoup(html).find("link",attrs={"rel":"canonical"})
with open("{}.html".format(link["href"].split("/")[3]),"wb") as file:
file.write(html)
какое имя вы хотите использовать? –
Привет @PadraicCunningham «The-Google-Way-Revolutionizing-Management», который является частью исходного URL-адреса. – Diego
То есть название Diego, я добавил ответ –