Получить весь сайт python

Очень просто получить простую веб-страницу. Как я могу видеть из python's manumal Получить весь сайт python

import urllib2 
response = urllib2.urlopen('http://python.org/') 
html = response.read()

Но как извлечь весь сайт? Может ли кто-нибудь указать мне код?

источник

2012-04-18 Bogdan

Используйте BeautifulSoup для разбора сайта и повторите процесс для каждой ссылки, если он не приведет вас за пределы домена.

Довольно простой, но он становится сложным, если вы пытаетесь получить также динамический контент, который не имеет ссылок, ведущих к нему.

источник

2012-04-18 22:14:35 Tadeck

beautifulsoup - отличный инструмент для этого с помощью функции 'findAll'. +1 – Endophage

Спасибо, я проверю это прямо сейчас. – Bogdan

@Bogdan: Нет проблем, просто имейте в виду, что вы не получили что-то, что вы уже выбрали (вы можете сделать это, просто сохранив страницы на диске относительно их относительного местоположения на сервере - таким образом вы сможете увидеть если файл уже загружен). – Tadeck

Вы можете использовать комбинацию

Scrapy http://scrapy.org/
BeautifulSoup http://www.crummy.com/software/BeautifulSoup/
Mechanize http://wwwsearch.sourceforge.net/mechanize/

Вы можете извлечь ссылки на веб-страницы и отслеживать, если вы имеете уже посетил эту страницу или нет, и если URL-адрес принадлежит к тому же сайту или нет и выберет их.

Вам нужно иметь в виду уровень вложенности, который вам понадобится для индексации этой страницы. В противном случае страницы, которые вы собираетесь получить, будут экспоненциально расти

источник

2012-04-18 22:18:16 Kartik

Получить весь сайт python

ответ

Смежные вопросы