Мой вопрос похож на вопрос, заданный здесь: https://stackoverflow.com/questions/14599485/news-website-comment-analysis Я пытаюсь извлечь комментарии из любой статьи новостей. Например. У меня есть новостной url здесь: http://www.cnn.com/2013/09/24/politics/un-obama-foreign-policy/ Я пытаюсь использовать BeautifulSoup в python для извлечения комментариев. Однако кажется, что раздел комментариев встроен в iframe или загружен через javascript. Просмотр источника через firebug не показывает источник раздела комментариев. Но явно просматривается источник комментариев через функцию просмотра источника в браузере. Как сделать вывод комментариев, особенно когда комментарии поступают из другого URL-адреса, встроенного в веб-страницу новостей?Извлечение комментариев из статей новостей
Это то, что я делал до сих пор, хотя это не так много:
import urllib2
from bs4 import BeautifulSoup
opener = urllib2.build_opener()
url = ('http://www.cnn.com/2013/08/28/health/stem-cell-brain/index.html')
urlContent = opener.open(url).read()
soup = BeautifulSoup(urlContent)
title = soup.title.text
print title
body = soup.findAll('body')
outfile = open("brain.txt","w+")
for i in body:
i=i.text.encode('ascii','ignore')
outfile.write(i +'\n')
Любая помощь в том, что мне нужно сделать, или, как идти об этом будет оценена.
Вам нужно попробовать что-то вроде селен эмулировать JavaScript возможности в браузере тоже. –
@SnakesandCoffee вам не нужны js для конкретного случая. его просто iframe вы можете загрузить всю страницу. –