Я пытаюсь написать программу на python, которая считывает все данные с веб-страницы и добавляет содержимое любого из заголовков заголовков <h1>
через <h6>
в список. Пока я просто пытаюсь получить информацию о сайте в первую очередь, что оказалось трудным.Извлечение информации HTML из URL-адреса
Редактировать: Это для класса. К сожалению, нам не разрешено использовать библиотеки, которые не устанавливаются заранее с помощью python.
Редактировать 2: Благодарим вас за все ваши советы. Программа теперь успешно читает HTML-сайт данного веб-сайта. У кого-нибудь есть предложения по поиску определенной строки (являющейся тегами <H>
) в веб-странице?
import urllib
from urllib.request import urlopen
#example URL that includes an <h> tag: http://www.hobo-web.co.uk/headers/
userAddress = input("Enter a website URL: ")
webPage = urllib.request.urlopen(userAddress)
print (webPage.read())
webPage.close()
http://docs.python-requests.org/en/latest/ и http://www.crummy.com/software/BeautifulSoup/ BS4/DOC / – pvg