Я использую BeautifulSoup, но, как я понимаю, библиотека больше не поддерживается. Итак, что я должен использовать? Я слышал про Xpath, но что еще там?Нет больше BeautifulSoup
ответ
Был bugfix release in April, так что я даже не знаю, где вы получите идею, что он больше не поддерживается. Однако, даже если бы это было так, BeautifulSoup по-прежнему много функционально, и я действительно не вижу, чтобы даже текущая реализация прерывалась в ближайшее время. У вас могут возникнуть проблемы с HTML 5 в ближайшие 2 года (хотя есть гораздо меньше причуд, поэтому, по крайней мере, до сих пор легче разбираться), но нет особых причин не использовать BeautifulSoup. Сообщество по-прежнему активно с поддержкой и т. Д. В группе google, и, очевидно, исходный код доступен для вас по мере необходимости.
Прохладный .. большое спасибо :-) –
Ну, если вы не обязаны работать с python, вы всегда можете использовать парсер TagSoup. Это Java-библиотека, но она дает очень хорошие результаты. Вы также можете просто использовать Tidy для очистки ввода, прежде чем пытаться его проанализировать.
Python - это все, что я знаю и изучаю на данный момент. –
Попробуйте LXML Lib: http://codespeak.net/lxml/
На самом деле, я сделал .. BeautifulSoup кажется намного проще –
Я бы держался подальше от lxml
, его слишком суетливый для моего вкуса. Я бы попробовал html5lib
, если бы был вами. Он не только анализирует html, но и надежно обрабатывает ошибки, которые вы видите в суп-теге, известный как недопустимый html.
Он даже имеет режим эмуляции BeautifulSoup, производя дерево разбора в красивой форме супа, чтобы облегчить перенос старого кода через:
import html5lib
from html5lib import treebuilders
f = open("mydocument.html")
parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("beautifulsoup"))
minidom_document = parser.parse(f)
Вы также пробовали lxml.html (вместо lxml.etree)? У меня были хорошие впечатления, даже с довольно плохим супом. Также обратите внимание, что вы также можете использовать парсер html5lib с lxml. – Steven
Нет, у меня нет, но теперь я буду :) – fmark
Я думаю, что буду придерживаться BeautifulSoup –
- 1. BeautifulSoup Скребок нет вывода
- 2. Нет модуля с именем beautifulsoup
- 3. Нет вывода при запуске кода BeautifulSoup Python
- 4. Минимум: больше нет ожиданий
- 5. Python BeautifulSoup Нет тега и возвращает пустой
- 6. beautifulsoup нет уникального идентификатора в таблице
- 7. BeautifulSoup: ImportError: Нет модуль с именем html.entities
- 8. У BeautifulSoup encoding.bytes нет атрибута find_all?
- 9. BeautifulSoup - проверить атрибут/если нет атрибута
- 10. BeautifulSoup Python скрипт больше не работает для разработки простого поля
- 11. BeautifulSoup возвращает больше, чем требуется с плавающей запятой
- 12. Больше нет поддержки триггеров firebase?
- 13. itextsharp 5.4.4 CopyAcroForm больше нет
- 14. Async Loop Больше нет HttpContext
- 15. Больше нет циклов в R
- 16. Нет! Больше ничего не видно
- 17. Все ли больше, чем Нет?
- 18. Поиск BeautifulSoup по результату beautifulsoup?
- 19. Скрыть кнопку «загрузить больше», когда больше нет сообщений
- 20. BeautifulSoup 4.0b markupMassage
- 21. Ускорение beautifulsoup
- 22. python beautifulsoup нет ссылки при разборе тега 'a' и href
- 23. Нет модуля с именем BeautifulSoup (но он должен быть установлен)
- 24. Нет текста для <br> в BeautifulSoup
- 25. ImportError Нет модуль с именем BeautifulSoup - ошибка пути
- 26. Нет больше `private init` в Swift?
- 27. У Glimpse больше нет кнопки «Запустить сейчас»
- 28. Больше нет автозапуска RSS в Firefox?
- 29. Нет больше консольного клиента SVN для Windows?
- 30. Нет визуального редактирования экрана настроек больше?
«Это зависит». Вы ищете XML-Parser или для анализатора real-world-html? –
«Библиотека больше не поддерживается». Просьба представить доказательства этого утверждения. –
Хорошо, один из моих коллег сказал мне, и этот человек, как правило, хорошо информирован. Но, видимо, не в этом случае –