beautifulsoup4
Случаем, чтобы урезать недопустимый (я думаю) html в некоторых случаях. Я хотел бы заставить его не делать этого. Я предполагаю, что там нет «формального» способа, но, возможно, вы достигли этого раньше?Предотвращение bs4 от усечения html
ответ
Если HTML не работает, восстановление дерева работоспособных элементов не всегда возможно. Тем не менее, вы можете попробовать использовать разные парсеры. Не все парсеры могут обрабатывать разбитый HTML одинаково.
html5lib
анализатора особенно искусен в работе с разбитой HTML, обработка такого ввода так же, как большинство из них браузеров:
soup = BeautifulSoup(htmlcontent, 'html5')
Вы можете также попробовать lxml
здесь. Обе библиотеки являются отдельными установками.
Спасибо. Производительность не вызывает беспокойства здесь, просто любопытно, является ли «html5» медленным, или это только я? – nutship
'html5lib' действительно медленнее, он делает намного больше работы. –
- 1. Предотвращение Pandas read_csv от усечения полной временной отметки
- 2. Предотвращение усечения JQuery Mobile сбрасываемого заголовка
- 3. Предотвращение Excel усечения ведущих нулей для HYPERLINKS
- 4. Предотвращение усечения длинных строк в pytest
- 5. JFreechart: предотвращение усечения в пузырьковых диаграммах
- 6. Предотвращение уклонения от уклонения HTML
- 7. Предотвращение & от просмотра HTML
- 8. Получение значений из HTML с помощью BS4
- 9. Предотвращение усечения sqlplus имен столбцов без форматирования отдельных столбцов
- 10. Предотвращение xcode от попытки разобрать html
- 11. Предотвращение очистки Gmail от прикрепленного HTML
- 12. Предотвращение jQueryUI Табулатуры от Отображение немодифицированных HTML
- 13. issue extract html page's string using bs4
- 14. BeautifulSoup (BS4) XML-парсер удаляет HTML объекты
- 15. Выбор HTML объектов с Python и BS4
- 16. SAS Batch Submission - предотвращение усечения по 256 символов в строке?
- 17. iPhone: Предотвращение текста усечения с UITableView стиля UITableViewCellStyleValue1
- 18. Предотвращение усечения данных python, используемых в качестве ключа
- 19. Учет длины HTML DIV для усечения текста
- 20. BeautifulSoup (BS4) разбор неправильно
- 21. Предотвращение onclick от обжига
- 22. усечения подстрок от середины для NSString
- 23. Предотвратить Jquery Mobile от Усечения текста
- 24. Разбор XML с BS4
- 25. Grails Предотвращение HTML модификации
- 26. Предотвращение кражи HTML-кода
- 27. Предотвращение изменения CKEDITOR HTML
- 28. HTML 5 Предотвращение загрузки
- 29. Предотвращение перекрытия содержимого HTML
- 30. Предотвращение вставки HTML
Просьба привести пример ввода HTML, вывод, который вы видите, используемый вами код, версию bs4, которую вы используете, и какой парсер (и версию парсера, и, если это lxml, который версия libxml2). – abarnert