2014-09-11 5 views
1

У меня есть быстрый вопрос относительно лечения. Из того, что я могу сказать, ссылки экстракторы только захватить ссылки, которые имеют атрибут, как href =. Единственное, с чем я столкнулся, - это захват ссылок, которые выглядят так: <link> link here </link> Вот одно из текущих правил, которые я использую для моего сканера: Rule(LinkExtractor(allow=('feedproxy'), tags='link'), follow=True, callback="parse_urls") Любая помощь будет оценена, спасибо. -Samscrape scraping url from между тегами

ответ

0

Я думаю, вам нужно будет обрабатывать эти виды ссылок вручную. Link Extractors можно управлять с помощью tags and attrs arguments:

метки (ул или список) - тег или список тегов, которые необходимо учитывать при извлекая ссылки. По умолчанию ('a', 'area').

ATTRS (список) - атрибут или список атрибутов, которые следует учитывать при ищет ссылки для извлечения (только для тех тегов, указанных в параметре теги). По умолчанию ('href',)

Но они могут получать ссылки только от атрибутов.

Таким образом, в текущей конфигурации, вы можете ожидать только следующие типы ссылок, которые будут извлечены:

<link href="http://google.com">test</link> 
+0

я я понял, что это то, что извлекается мне просто интересно, как вручную exctract ссылки , – johnc31

+0

@ samuelm33 просто делайте это в обратном вызове 'parse()', используя 'response.xpath ('// link/text()')'. Итерации по результатам и возврат/выход ['Запрос'] (http://doc.scrapy.org/en/latest/topics/request-response.html#scrapy.http.Request) экземпляры, если необходимо, чтобы следить за ссылками. – alecxe

+0

ah ok, запрос был тем, что я искал благодаря. – johnc31

Смежные вопросы