2016-12-10 3 views
0

Я учусь для разбора HTML в Python с BeautifulSoup library.I наткнулся на отображение ошибокPython Синтаксический с BeautifulSoup

import urllib 

from BeautifulSoup import * 

html_doc = """ 
    <html><head><title>The Dormouse's story</title></head> 
    <body> 
    <p class="title"><b>The Dormouse's story</b></p> 

    <p class="story">Once upon a time there were three little sisters; and  their names were 
    <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>, 
    <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and 
    <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>; 
    and they lived at the bottom of a well.</p> 
    <p class="story">...</p> 
    """ 

    soup=BeautifulSoup(html_doc) 

    print soup.prettify() 

    print soup.title 

    print soup.title.name 

    print soup.title.string 

    print soup.title.parent.name 

    print soup.p 

    print soup.p['class'] 

    print soup.a 

    print soup.find_all('a') 

    #for extracting URL's 
    for link in soup.find_all('a'): 
     print link.get('href') 

    print soup.get_text() 

Помощь мне исправить код выше. Я использовал Python 2. Ниже изображена ошибка enter image description here

+1

Включить сведения об ошибках или StackTrace из оболочки –

+0

в данном примере у вас неправильные отступы. всегда отображается полное сообщение об ошибке (Traceback). Мы можем запускать ваш код без ошибок. – furas

+0

вы должны скопировать-вставить сообщение об ошибке - это может быть более полезно, потому что каждый может скопировать сообщение и использовать его в ответ или комментарий. – furas

ответ

0

Вы не обнаружили сообщение об ошибке, о котором я думаю.

Возможно вы используете старый BeautifulSoup и вам нужно findAll() вместо find_all() и getText() вместо get_text()


Новый BeautifulSoup импортируется

from bs4 import BeautifulSoup 
Смежные вопросы