2013-03-18 2 views
-2

Мне нужно разобрать все веб-страницы Википедии. Как я могу это сделать?Как анализировать все страницы Википедии?

Могу ли я сделать это через карту своего сайта? Если да, где находится карта сайта Wikipedia?

+2

Итак, вы хотите знать, как разорвать весь контент из Википедии без их разрешения? Это то, о чем вы спрашиваете? – Crontab

+4

зачем разбирать весь сайт? Wikipedia предлагает всю базу данных в виде загрузки, для использования в зеркалировании и т. Д. Http://en.wikipedia.org/wiki/Wikipedia:Database_download –

+1

@Crontab У него есть разрешение. Все содержимое Википедии лицензировано по лицензии [Creative Commons] (http://en.wikipedia.org/wiki/Wikipedia:Copyrights) и GNU FDL –

ответ

5

Вместо того, чтобы анализировать все веб-страницы, Википедия позволяет вам download their database. Это предпочтительный подход, поскольку он, как правило, будет намного быстрее, так как Wikipedia имеет более 4 миллионов статей.

Это также более справедливо для Википедии, и вы не сможете заблокировать их для агрессивного сканирования. Пожалуйста, прочтите this policy

+0

есть ли способ получить только названия всех итальянских веб-страниц в Википедии? спасибо :) – xRobot

+0

@xRobot Просмотрите [документацию] (http://www.mediawiki.org/wiki/Manual:Database_layout). ** Подсказка **: в частности, проверьте таблицу [page] (http://www.mediawiki.org/wiki/Manual:Page_table), в которой есть поле 'page_title'. –

Смежные вопросы