Этот вопрос похож на тот, который был задан here, но ответ был не очень полезен.Извлечение комментариев Disqus с использованием Python и Beautiful Soup
Я пытаюсь извлечь комментарии с веб-страницы, которая использует Disqus, однако я не могу получить доступ к разделу.
Это то, что я до сих пор, это не так много
import urllib
import urllib2,cookielib
from bs4 import BeautifulSoup
from IPython.display import HTML
site= "http://www.timesofmalta.com/articles/view/20161207/local/daphne-caruana-galizia-among-politicos-28-most-influential.633146"
hdr = {'User-Agent':'Mozilla/5.0', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'}
req = urllib2.Request(site,headers=hdr)
page = urllib2.urlopen(req)
soup = BeautifulSoup(page,"html.parser")
title = soup.title.text
print title
Любые намеки о том, как я мог бы попытаться решить это?
Это зависит от веб-страницы. Сайт, который вы пытаетесь очистить, загружает комментарии динамически с помощью javascript, поэтому вы не можете очистить его с помощью urllib, вместо этого вам нужно будет использовать что-то вроде Selenium. –
Возможный дубликат [Веб-соскабливание страницы JavaScript с помощью Python] (http://stackoverflow.com/questions/8049520/web-scraping-javascript-page-with-python) –