У меня есть быстрый вопрос относительно лечения. Из того, что я могу сказать, ссылки экстракторы только захватить ссылки, которые имеют атрибут, как href =. Единственное, с чем я столкнулся, - это захват ссылок, которые выглядят так: <link> link here </link>
Вот одно из текущих правил, которые я использую для моего сканера: Rule(LinkExtractor(allow=('feedproxy'), tags='link'), follow=True, callback="parse_urls")
Любая помощь будет оценена, спасибо. -Samscrape scraping url from между тегами
1
A
ответ
0
Я думаю, вам нужно будет обрабатывать эти виды ссылок вручную. Link Extractors
можно управлять с помощью tags
and attrs
arguments:
метки (ул или список) - тег или список тегов, которые необходимо учитывать при извлекая ссылки. По умолчанию ('a', 'area').
ATTRS (список) - атрибут или список атрибутов, которые следует учитывать при ищет ссылки для извлечения (только для тех тегов, указанных в параметре теги). По умолчанию ('href',)
Но они могут получать ссылки только от атрибутов.
Таким образом, в текущей конфигурации, вы можете ожидать только следующие типы ссылок, которые будут извлечены:
<link href="http://google.com">test</link>
Смежные вопросы
- 1. Scrape html tables from multiple url
- 2. scrape info from edline.net
- 3. scrape urls from google search
- 4. scrape json from viewsource страница
- 5. Scrape User Location from Twitter
- 6. scrape links from wikidata страница
- 7. PHP Scrape HTML содержание страницы с тегами
- 8. Python Scrape Images From CSS Class
- 9. BeautifulSoup url scraping
- 10. web harvest - scraping url
- 11. Scrape redirect url.
- 12. Scrape OnClick URL
- 13. scrape parent page html from iframe
- 14. Selenium: Scrape Images from EBay Listing
- 15. Захват информации между тегами
- 16. Python scraping pdf от URL
- 17. scraping: скачать файлы с url
- 18. Selenium scraping с несколькими URL-адресами
- 19. Пространства между Div тегами
- 20. абстрагирование преобразования между тегами id3, тегами m4a, тегами flac
- 21. линукса экстракт строка между тегами и вставить между другими тегами
- 22. Пробел между двумя тегами Div
- 23. Как рассчитать сходства между тегами?
- 24. Python web scraping - напечатать только часть url
- 25. Прыжки между XML-тегами
- 26. Regex числа между :: тегами ::
- 27. Текст между HTML-тегами
- 28. Сохранять пробелы между тегами
- 29. Чтение текста между тегами
- 30. Извлечение HTML между тегами
я я понял, что это то, что извлекается мне просто интересно, как вручную exctract ссылки , – johnc31
@ samuelm33 просто делайте это в обратном вызове 'parse()', используя 'response.xpath ('// link/text()')'. Итерации по результатам и возврат/выход ['Запрос'] (http://doc.scrapy.org/en/latest/topics/request-response.html#scrapy.http.Request) экземпляры, если необходимо, чтобы следить за ссылками. – alecxe
ah ok, запрос был тем, что я искал благодаря. – johnc31