Я написал файл script, чтобы разобрать html и распечатать только текстовое содержимое. Я хотел игнорировать теги. Но у моей программы есть проблема. Я не уверен, что это такое. Пожалуйста, помогите мне.TypeError: ожидаемая строка или байтоподобный объект
import urllib.request
import re
from bs4 import BeautifulSoup
url = "www.example.com"
def hi():
dep = urllib.request.urlopen(url)
soup = BeautifulSoup(dep, 'html.parser')
for link in soup.find_all('p', string=True):
result = re.sub(b'<.*?>', "", link)
print (result)
hi()
Сайт link.
добавить код здесь. –
и обязательно включите полную трассировку в виде текста и то, что вы пытались решить проблему. – timgeb
@ Vasanth опубликуйте код, а не URL, который вы пытались очистить. –