2014-02-09 2 views
0

Любой способ сделать это с помощью сканера-паука? Не уступая запросы. Достаточно примера. Я хочу использовать текст href в качестве заголовка веб-страницы и иметь ссылку на URL-адрес, содержащий ссылку. Я просто использую базовые селекторы для заполнения своего элемента, но не знаю, как получить эту информацию.Передача href текста и ссылки на веб-страницу в Scrapy

Редактировать: Я просмотрел его, и я хочу, чтобы иметь возможность передавать метаданные заголовка href и ссылаться на url, а также быть в состоянии соответствовать правилам, которые я определил, вместо того, чтобы получать все URL-адреса и самостоятельно обучая их.

мета = { "hrefText": ... "refURL": ...}

+0

Могли вы приводите пример, чтобы помочь прояснить ваше требование? И какой код вы пробовали до сих пор? – Talvalin

ответ

0

см CrawlSpider код:

for link in links: 
    r = Request(url=link.url, callback=self._response_downloaded) 
    r.meta.update(rule=n, link_text=link.text) 
    yield rule.process_request(r) 

означает, что вы можете получить HREF текст с response.meta['link_text']

+0

Выглядит многообещающе. Я попробую. – John

+0

Как получить ссылки с обработанных страниц? Я хочу, чтобы он был рекурсивным – John

+0

см. Http://doc.scrapy.org/en/latest/topics/spiders.html#crawling-rules, вам нужно установить 'follow = True' –

Смежные вопросы