2016-12-23 3 views
-1

Этот вопрос похож на тот, который был задан here, но ответ был не очень полезен.Извлечение комментариев Disqus с использованием Python и Beautiful Soup

Я пытаюсь извлечь комментарии с веб-страницы, которая использует Disqus, однако я не могу получить доступ к разделу.

Это то, что я до сих пор, это не так много

import urllib 
import urllib2,cookielib 
from bs4 import BeautifulSoup 
from IPython.display import HTML 

site= "http://www.timesofmalta.com/articles/view/20161207/local/daphne-caruana-galizia-among-politicos-28-most-influential.633146" 
hdr = {'User-Agent':'Mozilla/5.0', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'} 
req = urllib2.Request(site,headers=hdr) 
page = urllib2.urlopen(req) 

soup = BeautifulSoup(page,"html.parser") 
title = soup.title.text 
print title 

Любые намеки о том, как я мог бы попытаться решить это?

+0

Это зависит от веб-страницы. Сайт, который вы пытаетесь очистить, загружает комментарии динамически с помощью javascript, поэтому вы не можете очистить его с помощью urllib, вместо этого вам нужно будет использовать что-то вроде Selenium. –

+0

Возможный дубликат [Веб-соскабливание страницы JavaScript с помощью Python] (http://stackoverflow.com/questions/8049520/web-scraping-javascript-page-with-python) –

ответ

0

У меня была такая же проблема при попытке загрузить прокрутку бесконечности на java. Сделав миллион вещей, в том числе красивый суп, я понял, что лучший способ решить эту проблему - отладка с помощью хром, чтобы получить URL-адрес ходатайства, который будет отображаться при загрузке динамического содержимого, а затем найти способ регулирования выражение, чтобы я мог назвать его по-разному.

так, например, если вы активируете бесконечный прокрутки, вы откроете консоль отладки хром, вы увидите HTTP-петицию (возможно, HTTP-get). Если URL имеет структуру, как:

Http: www.yourlink.com/get_comments/product/page_offset_numbertoload/

вы сможете построить HTTP петицию с питоном и отправить его, получить ответ, в который хранит данные, которые вы ищете. Удачи чувак!

Смежные вопросы