Я написал библиотеку Python, которая стремится сделать это очень легко. Проверьте это на Github.
Чтобы установить его, запустить
$ pip install wikipedia
Затем, чтобы получить первый абзац статьи, просто воспользуйтесь функцией wikipedia.summary
.
>>> import wikipedia
>>> print wikipedia.summary("Albert Einstein", sentences=2)
печатает
Альберт Эйнштейн (/ ælbərt aɪnstaɪn /; немецкий: [albɐt aɪnʃtaɪn] ( слушать); 14 марта 1879 - 18 апреля 1955) был немецкого происхождения физик-теоретик, разработала общую теорию относительности, один из двух столпов современной физики (наряду с квантовой теорией ). Хотя он известен своей формулой эквивалентности массы и энергии E = mc2 (который был назван «самым известным уравнением в мире»), он получил Нобелевскую премию по физике 1921 года за свои услуги теоретической физики , и особенно за его открытие закона фотоэффект ".
Насколько, как это работает, wikipedia
делает запрос к Mobile Frontend Extension из API MediaWiki, который возвращает мобильные дружественные версии статей Википедии. Чтобы быть конкретным, передавая параметры prop=extracts&exsectionformat=plain
, серверы MediaWiki будут анализировать Викитекс и возвращать текстовую сводку статьи, которую вы запрашиваете, вплоть до текста всей страницы. Он также принимает параметры exchars
и exsentences
, что, что неудивительно, ограничивает количество символов и предложений, возвращаемых API.
'urllib' для получения страницы и' BeautifulSoup' для парсинга HTML. Хотя есть и другие способы сделать это, найдите их в StackOverflow. Это обсуждалось много раз. – user225312
какая разметка вы хотите? mediawiki, html? – khachik
HTML. (Ограничение 15 символов) –