Мне нужно разобрать все веб-страницы Википедии. Как я могу это сделать?Как анализировать все страницы Википедии?
Могу ли я сделать это через карту своего сайта? Если да, где находится карта сайта Wikipedia?
Мне нужно разобрать все веб-страницы Википедии. Как я могу это сделать?Как анализировать все страницы Википедии?
Могу ли я сделать это через карту своего сайта? Если да, где находится карта сайта Wikipedia?
Вместо того, чтобы анализировать все веб-страницы, Википедия позволяет вам download their database. Это предпочтительный подход, поскольку он, как правило, будет намного быстрее, так как Wikipedia имеет более 4 миллионов статей.
Это также более справедливо для Википедии, и вы не сможете заблокировать их для агрессивного сканирования. Пожалуйста, прочтите this policy
есть ли способ получить только названия всех итальянских веб-страниц в Википедии? спасибо :) – xRobot
@xRobot Просмотрите [документацию] (http://www.mediawiki.org/wiki/Manual:Database_layout). ** Подсказка **: в частности, проверьте таблицу [page] (http://www.mediawiki.org/wiki/Manual:Page_table), в которой есть поле 'page_title'. –
Итак, вы хотите знать, как разорвать весь контент из Википедии без их разрешения? Это то, о чем вы спрашиваете? – Crontab
зачем разбирать весь сайт? Wikipedia предлагает всю базу данных в виде загрузки, для использования в зеркалировании и т. Д. Http://en.wikipedia.org/wiki/Wikipedia:Database_download –
@Crontab У него есть разрешение. Все содержимое Википедии лицензировано по лицензии [Creative Commons] (http://en.wikipedia.org/wiki/Wikipedia:Copyrights) и GNU FDL –