2016-04-07 2 views
0

Я пробовал около дня, чтобы этот искатель работал и продолжал получать ошибки, может ли кто-нибудь предложить какие-либо способы его запуска. основного код паукScrapy crawler не будет сканировать какие-либо веб-страницы

import scrapy 
from scrapy.spiders import Spider 
from scrapy.selector import Selector 


class gameSpider(scrapy.Spider): 
name = "game_spider.py" 
allowed_domains = ["*"] 
start_urls = [ 
    "http://www.game.co.uk/en/grand-theft-auto-v-with-gta-online-3-500-000-1085837?categoryIdentifier=706209&catGroupId=" 
] 

def parse(self, response): 
    sel = Selector(response) 
    sites = sel.xpath('//ul[@class="directory-url"]/li') 
    items = [] 

    for site in sites: 
     item = Website() 
     item['name'] = site.xpath('//*[@id="details301149"]/div/div/h2/text()').extract() 
     """item['link'] = site.xpath('//a/@href').extract() 
     item['description'] = site.xpath('//*[@id="overview"]/div[3]()').re('-\s[^\n]*\\r')""" 
     items.append(item) 

    print items 
    return items 

Код элемента

import scrapy 


class GameItem(Item): 
    name = Field() 
    pass 

спасибо расширенной Джеймс

+0

@danmash is right. Вы можете иметь дело с динамической страницей. Посмотрите на [Waits] (http://selenium-python.readthedocs.org/waits.html) –

+0

OK спасибо, что помогает –

ответ

0

Вашего start_urls ссылка возвращает Erorr 500. Там нет никаких пунктов.

In [7]: sites = response.xpath('//ul[@class="directory-url"]/li') 

In [8]: sites 
Out[8]: [] 
Смежные вопросы