Нет больше BeautifulSoup

Я использую BeautifulSoup, но, как я понимаю, библиотека больше не поддерживается. Итак, что я должен использовать? Я слышал про Xpath, но что еще там?Нет больше BeautifulSoup

источник

2010-07-14 Peter Nielsen

«Это зависит». Вы ищете XML-Parser или для анализатора real-world-html? –

«Библиотека больше не поддерживается». Просьба представить доказательства этого утверждения. –

Хорошо, один из моих коллег сказал мне, и этот человек, как правило, хорошо информирован. Но, видимо, не в этом случае –

Был bugfix release in April, так что я даже не знаю, где вы получите идею, что он больше не поддерживается. Однако, даже если бы это было так, BeautifulSoup по-прежнему много функционально, и я действительно не вижу, чтобы даже текущая реализация прерывалась в ближайшее время. У вас могут возникнуть проблемы с HTML 5 в ближайшие 2 года (хотя есть гораздо меньше причуд, поэтому, по крайней мере, до сих пор легче разбираться), но нет особых причин не использовать BeautifulSoup. Сообщество по-прежнему активно с поддержкой и т. Д. В группе google, и, очевидно, исходный код доступен для вас по мере необходимости.

источник

2010-07-14 08:27:36

Прохладный .. большое спасибо :-) –

Ну, если вы не обязаны работать с python, вы всегда можете использовать парсер TagSoup. Это Java-библиотека, но она дает очень хорошие результаты. Вы также можете просто использовать Tidy для очистки ввода, прежде чем пытаться его проанализировать.

источник

2010-07-14 08:07:39 Borealid

Python - это все, что я знаю и изучаю на данный момент. –

Попробуйте LXML Lib: http://codespeak.net/lxml/

источник

2010-07-14 08:08:17 Roki

На самом деле, я сделал .. BeautifulSoup кажется намного проще –

Я бы держался подальше от lxml, его слишком суетливый для моего вкуса. Я бы попробовал html5lib, если бы был вами. Он не только анализирует html, но и надежно обрабатывает ошибки, которые вы видите в суп-теге, известный как недопустимый html.

Он даже имеет режим эмуляции BeautifulSoup, производя дерево разбора в красивой форме супа, чтобы облегчить перенос старого кода через:

import html5lib 
from html5lib import treebuilders 

f = open("mydocument.html") 
parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("beautifulsoup")) 
minidom_document = parser.parse(f)

источник

2010-07-14 08:34:09 fmark

Вы также пробовали lxml.html (вместо lxml.etree)? У меня были хорошие впечатления, даже с довольно плохим супом. Также обратите внимание, что вы также можете использовать парсер html5lib с lxml. – Steven

Нет, у меня нет, но теперь я буду :) – fmark

Я думаю, что буду придерживаться BeautifulSoup –

Нет больше BeautifulSoup

ответ

Смежные вопросы