2015-10-12 2 views
1

новинка для stackoveflow , поэтому я использовал красивый суп для извлечения данных из статьи на «techcrunch.com» для некоторых независимых исследований. я, казалось, извлекал большинство данных с легкостью, но столкнулся с трудностями, пытаясь получить данные из крошечных пузырей над знаками социальной сети, которые отображают количество акций этой статьи через этот носитель.Социальная сеть пузыря делится добычей с использованием красивого супа

Независимо от количества акций какой-либо социальной сети .... возвращенное значение для меня 0.

from BeautifulSoup import BeautifulSoup 
import urllib2 
url="http://techcrunch.com/2015/10/11/the-other-ag-sector-problem-that-big-data-can-solve/" 
page=urllib2.urlopen(url) 
soup = BeautifulSoup(page.read()) 
data=soup.find('div',{'class':'bubble total-facebook'}) 
print data.text 

Результат в ЦМД - 0 (но текущие акции на Facebook составляет 171) .. .пожалуйста помоги !

ответ

0

Это потому, что число динамически загружается Javascript. Если вы просмотрите источник страницы в браузере, вы увидите, что div класса «bubble total-facebook» действительно содержит текст «0», что также видит BeautifulSoup.

Безголовый браузер с поддержкой javascript может помочь. Я думаю, вы можете обратиться к этому вопросу:

Headless Browser for Python (Javascript support REQUIRED!)

Смежные вопросы