2013-03-08 9 views
-1

Я хотел бы использовать scraperwiki и python для создания скребка, который очистит большое количество информации от разных сайтов. Мне интересно, можно ли указать один URL-адрес, а затем очистить данные от каждой из ссылок внутри этого сайта.Скребковые данные из нескольких ссылок внутри сайта

Например: сайт будет содержать информацию о различных проектах, каждый из которых находится в пределах своей собственной отдельной ссылки. Мне не нужен список этих ссылок, кроме фактических данных, содержащихся в них.

Скребок будет искать одинаковые атрибуты на каждой из ссылок.

Кто-нибудь знает, как или если я могу это сделать?

Спасибо!

+1

См. Http://stackoverflow.com/questions/2081586/web-scraping-with-python – user1929959

+0

@ user1929959: принятый ответ не очень хороший. – Blender

ответ

1

Отъезд BeautifulSoup с urllib2.

http://www.crummy.com/software/BeautifulSoup/

An (очень) грубый пример ссылка скребок будет выглядеть следующим образом:

from bs4 import BeautifulSoup 
import urllib2 

c = urllib2.urlopen(url) 
contents = c.read() 
soup = BeautifulSoup(contents) 
links = soup.find_all(a): 

Тогда просто написать цикл, чтобы сделать это много раз, и вы установлены!

Смежные вопросы