Веб-скребок с Python

В настоящее время я пытаюсь очистить веб-сайт с довольно плохо отформатированным HTML (часто отсутствующие закрывающие теги, без использования классов или идентификаторов, поэтому невероятно сложно перейти к нужному элементу и т. Д.).). Я использую BeautifulSoup с некоторым успехом, но все время от времени (хотя и довольно редко) я сталкиваюсь с страницей, где BeautifulSoup создает дерево HTML немного иначе, чем (например) Firefox или Webkit. Хотя это понятно, так как форматирование HTML оставляет это двусмысленным, если бы я смог получить то же дерево разбора, что и Firefox или Webkit, я мог бы легче разбирать вещи. Проблемы обычно похожи на сайт, который дважды открывает тег , и когда BeautifulSoup видит второй тег , он сразу же закрывает первый, в то время как Firefox и Webkit гнездятся в тегах .Веб-скребок с Python

Есть ли библиотека стирания веб-страниц для Python (или даже любого другого языка (я отчаянно)), который может воспроизводить дерево синтаксического разбора, созданное Firefox или WebKit (или, по крайней мере, ближе к BeautifulSoup в случаях двусмысленности) ,

источник

2010-03-07 Jack Edmonds

Почему бы не использовать сам WebKit? Webkit - с открытым исходным кодом. Да, для того, чтобы привыкнуть, потребуется немного времени. –

Вы сказали группе beautifulsoup? Вероятно, они заинтересованы в таких трюках, как ваши http://groups.google.com/group/beautifulsoup –

Сколько раз задавались вопросы ... –

Используйте BeautifulSoup как дерево строителя для html5lib:

from html5lib import HTMLParser, treebuilders 

parser = HTMLParser(tree=treebuilders.getTreeBuilder("beautifulsoup")) 

text = "a<b>b<b>c" 
soup = parser.parse(text) 
print soup.prettify()

Выход:

<html> 
<head> 
</head> 
<body> 
    a 
    <b> 
    b 
    <b> 
    c 
    </b> 
    </b> 
</body> 
</html>

источник

2010-03-07 23:23:04 jfs

Ну, WebKit является открытым исходным кодом, так что вы можете использовать свой собственный парсер (в компоненте WebCore), если любой язык является приемлемым

источник

2010-03-07 18:12:48

Вы можете управлять браузером по вашему выбору с SeleniumRC.

источник

2010-03-07 18:18:06

Вы можете взглянуть на механизировать модуль:

http://wwwsearch.sourceforge.net/mechanize/

источник

2010-03-07 19:14:11

Ян Bicking однажды написал, что удивительно LXML может быть лучше при разборе супов, чем BeautifulSoup: http://blog.ianbicking.org/2008/12/10/lxml-an-underappreciated-web-scraping-library/ (Только упоминание для справки, не попробовал это лично)

источник

2010-03-07 19:22:25

pyWebKitGTK похоже, что это может быть полезно.

Также здесь есть чувак, который должен был сделать то же самое, но получить экспорт содержимого после запуска javascript, execute javascript from python using pyWebKitGTK.

pyWebkitGTK на cheeseshop.

Вы также можете do this with pyQt.

источник

2010-03-07 19:47:34

вы пробовали scrapy?

Scrapy является быстрым высокоуровневым экран выскабливания и веба ползать рамки, используется для сканирования веб-сайтов и извлекать структурированных данные из своих страниц. Он может использоваться для широкого спектра целей: , от добычи данных до мониторинга и автоматических испытаний.

источник

2010-03-28 10:56:28

Из документации кажется, что ICantBelieveItsBeautifulSoup анализатор, что вы хотите:

ICantBelieveItsBeautifulSoup также подкласс BeautifulSoup. Он имеет HTML эвристики, которые более точно соответствуют стандарту HTML, но игнорируют, как HTML используется в реальном мире. Для Например, она действует HTML гнездиться метки, но в реальном мире вложенный тег почти всегда означает, что автор забыл закрыть первый тега. Если вы столкнулись с тем, кто действительно гнездится теги, тогда вы можете использовать ICantBelieveItsBeautifulSoup.

источник

2010-04-19 05:14:03 brofield

это выглядит хорошо для меня, я использую это сам: ссылка [http://code.google.com/p/webscraping/]

источник

2011-05-19 13:42:24 Max

вы можете использовать LXML анализатор, в BeautifulSoup, и вы используете xpath для поиска данных на неформатированной странице html, вы можете скопировать xpath при проверке элемента с помощью firebug.

Вы можете проверить этот учебник: http://www.youtube.com/watch?v=PgWfF-Ut0zM

источник

2012-07-12 00:08:34

Веб-скребок с Python

ответ

Смежные вопросы