Согласно ответу по @Jens Тиммермана на этот пост: Extract the first paragraph from a Wikipedia article (Python)ошибок ползать википедия
я сделал это:
import urllib2
def getPage(url):
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')] #wikipedia needs this
resource = opener.open("http://en.wikipedia.org/wiki/" + url)
data = resource.read()
resource.close()
return data
print getPage('Steve_Jobs')
технически он должен работать правильно и дать мне исходный код страницы. но вот что я получаю:
любая помощь будет оценена ..
Зачем сканировать Википедию, если вы можете использовать их [API] (http://www.mediawiki.org/wiki/API)? – NullUserException
@NullUserException, извините, но я ненавижу комментарии, подобные вашим. OP хочет сделать это с помощью 'python', можем ли мы просто сосредоточиться на том, чтобы помочь ему достичь этого, а не предлагать альтернативные методы? –
@ l19: NullUserException совершенно прав; API Википедии можно использовать из Python (на самом деле это один из самых распространенных сценариев), поскольку они просто простые HTTP-запросы, такие как тот, о котором мы сейчас говорим. Разница в том, что они, как правило, более гибкие, а возвращаемые данные обычно в машиночитаемом формате, что обычно является большим плюсом для наших скриптов * и * для серверов wikipedia, которым не нужно тратить время на разметку MediaWiki. –