BeautifulSoup 3 имеет приятную функцию, что он не будет пытаться интерпретировать содержимое тега <textarea>
как html - вместо этого он цитирует его как текст. Такое поведение может быть выполнено для других тегов, изменяя атрибут QUOTE_TAGS
. Вот как это можно пригодиться an illustration.Извлечь содержимое тега как текст (эквивалент QUOTE_TAGS) в BeautifulSoup 4
В BeautifulSoup 4 нет атрибута QUOTE_TAGS
, и я не вижу возможности получить такую же функциональность без подкласса html.parser
. Я что-то упускаю? Как бы вы решили проблему, связанную выше, используя BS4?
У меня наконец появился шанс попробовать, и, действительно, html5lib ведет себя гораздо более похоже на парсер bs3 в этом отношении. Спасибо за этот ответ! –