2015-04-24 2 views
1

Я просматривал все примеры и учебные пособия, которые я могу найти, и я не мог найти пример, где я могу пойти и получить все URL-адреса изображений, css, и js-файлы, отправляемые с сервера.Как получить все изображения, js, css urls

Есть ли способ сделать это с помощью scrapy? Если не с помощью scrapy, то есть ли способ сделать это с чем-то еще?

Я в основном хочу пройти через свой сайт и получить все URL/ресурсы и вывести их в файл журнала.

+0

Вы можете перечислить все URL с сайта , Вы можете проверить этот код [http://stackoverflow.com/questions/9561020/how-do-i-use-the-python-scrapy-module-to-list-all-the-urls-from-my- сайт? rq = 1] –

+0

@JoseRaulBarreras очень ценят ответ! Тем не менее, его ресурсы веб-сайта я хочу, чтобы URL-адреса, а не URL-адреса. Я смог пройти и получить все URL-адреса уже. Я просто не знаю, как получить URL-адреса ресурсов, если это имеет смысл. – airborne4

ответ

2

Вы можете использовать link extractor (более конкретно, я обнаружил, что LxmlParserLinkExtractor работает лучше для такого рода вещи), настраивая элементы и атрибуты, как это:

from scrapy.contrib.linkextractors.lxmlhtml import LxmlParserLinkExtractor 

tags = ['img', 'embed', 'link', 'script'] 
attrs = ['src', 'href'] 
extractor = LxmlParserLinkExtractor(lambda x: x in tags, lambda x: x in attrs) 
resource_urls = [l.url for l in extractor.extract_links(response)] 
+0

Спасибо! Я думаю, что это мой ответ - у него не будет времени, чтобы реализовать его до завтра, но это похоже на правильное направление. – airborne4

+0

@ airborne4 Добро пожаловать. знак равно – elias

Смежные вопросы