Что было бы самым простым способом получить все статьи о людях из Википедии? Я знаю, что могу загрузить свалку всех страниц, но как я могу их фильтровать и получать только те, что есть у людей? Мне нужно столько, сколько я могу получить (желательно более миллиона), поэтому использование каких-либо API, вероятно, не вариант.Как я могу получить все статьи о людях из Википедии?
ответ
Поскольку статьи о людях, как правило, содержат шаблон PersonData, вы можете просто найти все статьи, содержащие PersonData. Вы можете найти запрос API образца для выполнения только что здесь:
Does the Wikipedia API support searches for a specific template?
Если вы собираетесь использовать самостоятельно, в основном вам нужно сосредоточиться на «infobox данных» в дампе XML.
Ссылка: http://code.google.com/p/infobox2rdf/
Или вы также можете извлечь http://www.freebase.com или http://dbpedia.org
С 2014 у вас есть еще один вариант: Query WikiData для всех объектов, где свойство instance of
(P31) имеет значение human
(Q5).
Полный список людей: https://www.wikidata.org/wiki/Special:WhatLinksHere/Q5
Из этого списка, отфильтровывать любую вещь, которая не имеет в sex or gender
(P21), чтобы избавиться от страниц, как «ученый»
Таким образом, вы не необходимо следить за тем, какие шаблоны используются для людей в каждой отдельной языковой версии (есть 285) Википедии.
- 1. Как получить все статьи в Википедии?
- 2. Как получить абстракцию и thumbnail статьи Википедии из статьи DBPedia?
- 3. Получить первый абзац статьи Википедии
- 4. Как получить все статьи в Википедии с API MediaWiki?
- 5. Как получить все версии XML для статьи в Википедии?
- 6. Захватить содержимое статьи Википедии
- 7. Извлечь данные из статьи Википедии
- 8. Как получить длину статьи Википедии через API?
- 9. Как разобрать информацию из данной статьи Википедии
- 10. Извлечь описание из Википедии из статьи
- 11. Проанализируйте первый абзац из статьи в Википедии?
- 12. Популярность каждой статьи в википедии
- 13. Как получить связанные темы из настоящей статьи в Википедии?
- 14. jsoup - извлечение текста из статьи википедии
- 15. Подведение итогов статьи в Википедии
- 16. Получение межъязыковых ссылок из экспортируемой статьи Википедии?
- 17. Как я могу загружать статьи с сайтов?
- 18. Получить все ссылки со страницы в Википедии
- 19. Как получить основную категорию статьи с помощью API Википедии
- 20. Как получить статьи из dbpedia?
- 21. Как я могу получить определенный текст из Википедии?
- 22. Как получить имя статьи Википедии на другом языке
- 23. Как я могу получить полную историю изменений для статьи в Википедии?
- 24. Как получить историческую версию статьи Википедии по данной дате?
- 25. Как получить идентификатор Wikidata для статьи в Википедии API?
- 26. Как получить историю пересмотра статей из Википедии
- 27. Как получить информацию о людях, совершивших код в репозиторий SVN?
- 28. Как получить IMDb ID для какой-либо статьи из фильма из Википедии?
- 29. Экспорт статьи в Википедии, чтобы получить итоговую информацию
- 30. Любой способ вернуть только (чистый) текст из статьи в Википедии?
Я действительно не знаю, о чем вы просите, кроме более миллиона статей Wikipedia о людях (что не подходит для SO). –
Что именно вы имеете в виду? Вы просите совета о том, как внедрить веб-паук? –
Нет, я не думаю, что в этом случае уловка уместна. Можно загрузить файл дампа википедии. Вопрос в том, как отфильтровать файл дампа XML и получить только те страницы, которые относятся к людям. – Johnny