2010-09-22 2 views
3

Я хотел бы знать, как я могу запустить сканер, основанный на Scrapy. Я установил инструмент с помощью APT-получить установку, и я попытался запустить пример:Как использовать Scrapy

 
/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy list 
directory.google.com 

/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy crawl 

Я взломал код из пауков/google_directory.py но мне кажется, что это не выполняется, потому что я не вижу которые я вставлял. Я прочитал их документацию, но я не нашел ничего связанного с этим; У Вас есть какие-либо идеи?

Кроме того, если вы считаете, что для обхода веб-сайта я должен использовать другие инструменты, пожалуйста, дайте мне знать. У меня нет опыта с инструментами Python, и Python является обязательным.

Спасибо!

ответ

7

Вы пропустили имя паука в команде ползать. Использование:

$ scrapy crawl directory.google.com 

Кроме того, я предлагаю вам скопировать пример проекта для вашего дома, вместо того чтобы работать в директории /usr/share/doc/scrapy/examples/, так что вы можете изменить его и играть с ним:

$ cp -r /usr/share/doc/scrapy/examples/googledir ~ 
$ cd ~/googledir 
$ scrapy crawl directory.google.com 
+0

Спасибо, это сработало! –

7

EveryBlock.com выпустил около quality scraping code используя lxml, urllib2 и Django в качестве своего стека.

Scraperwiki.com является вдохновляющим, полным примеров скребков python.

Простой пример с cssselect:

from lxml.html import fromstring 

dom = fromstring('<html... ...') 
navigation_links = [a.get('href') for a in htm.cssselect('#navigation a')] 
+0

Спасибо за ваш ответ ; Я рассмотрю эти технологии позже. –