2016-07-29 2 views
1

Я использовал requests и bs4. В кругу я обнаружил, что только последний «суп» прав, когда я получаю каждый «суп». Другой «суп» отличается от источника HTML. Пожалуйста, помогите мне. Благодарю.web crawler in python (несколько сайтов)

for eachLine in files: 
    addr = 'http://neuromorpho.org/neuron_info.jsp?neuron_name='+eachLine 
    print addr 
    st = [] 
    st1 = [] 
    r2 = requests.get(addr) 
    soup2 = bs4.BeautifulSoup(r2.text,"lxml") 
    print soup2 

ответ

0

Объект запроса имеет параметр контента, который имеет все содержание сайта, и вы можете разобрать его с помощью BS4

for eachLine in files: 
    addr = 'http://neuromorpho.org/neuron_info.jsp?neuron_name='+eachLine 
    r2 = requests.get(addr) 
    content = r2.content 
    soup2 = bs4.BeautifulSoup(content) 
    print soup2