Я пытаюсь получить содержимое метатега. Проблема в том, что BS4 не может правильно анализировать тег на некоторых сайтах, где тег не закрыт, как и должно быть. С тегами в качестве примера ниже, выход моей функции включает в себя множество беспорядков, включая другие теги, такие как скрипты, ссылки и т. Д. Я считаю, что браузер автоматически закрывает метатег где-то в конце головы, и это поведение сбивает BS4.Скребок неблокированных мета-тегов с BS4
Мой код работает с этим:
<meta name="description" content="content" />
и не работает с:
<meta name="description" content="content">
Вот код моей функции BS4:
from bs4 import BeautifulSoup
html = BeautifulSoup(open('/path/file.html'), 'html.parser')
desc = html.find(attrs={'name':'description'})
print(desc)
Любой способ заставить его работать с этими незакрытыми метатегами?
Спасибо. Оба парсера работают правильно. –