Я пытаюсь извлечь статьи из The New York Times, используя экстрактор гусиных путов python.Как извлечь статьи python goose с New York Times
Я попытался с помощью стандартного извлечения URL пути:
g.extract(url=url)
Однако это приводит к пустой строке. Поэтому я пробовал следующий способ, рекомендованный в документации:
import urllib2
import goose
url = "http://www.nytimes.com/reuters/2015/12/21/world/africa/21reuters-kenya-attacks-somalia.html?_r=0"
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())
response = opener.open(url)
raw_html = response.read()
g = goose.Goose()
a = g.extract(raw_html=raw_html)
a.cleaned_text
Снова пустая строка возвращается для «cleaned_text». Html извлекается с веб-сайта. Я также попытался использовать запросы, но тот же результат.
Я предполагаю, что это проблема с путинским python в том, что вы не можете извлечь тело статьи из необработанных данных, которые возвращаются. Я искал предыдущий, но я не могу найти результатов, которые решают мою проблему.
Я разрешил его, минуя использование гусака python и вместо этого используя BeautifulSoup. 'BeautifulSoup.opener = urllib2.build_opener (urllib2.HTTPCookieProcessor())' ' ответ = opener.open (URL)' ' raw_html = response.read(). Декодировать ('utf8')' 'soup = BeautifulSoup (raw_html)' 'paragraph = soup.findAll ('p', {'class': 'story-body-text story-content'})' edit: пытаясь заставить формат работать, но увы , надеюсь, это помогает. – Msa