Я хочу извлечь данные с веб-сайта. Скажем, URL-адрес: http://www.example.com/. Поэтому я помещаю этот URL-адрес в start_urls
(ссылаясь на пример DMOZ в документации). Но я также хочу создать графический интерфейс, когда я ввешу строку и нажму кнопку, она добавит эту строку в start_urls
и извлечет все страницы, к которым можно получить доступ, например, http://www.example.com/computer/page-1. Так что, пожалуйста, скажите мне, как я могу это сделать с помощью цикла? Я попытался поместить больше URL-адресов в start_urls
вручную, чтобы проверить, работает ли он, но он не отвечает хорошо. Иногда он не получает ответа. Любые мысли по этому поводу?сканирование нескольких веб-страниц с веб-сайта
ответ
Как вы можете это сделать, используя петлю?
Друг, это будет какая-то петля. Серьезно, я бы рассмотрел поиск существующих скриптов и приложений Open-Source, которые это делают. Вы легко могли бы увидеть и иметь представление, как это можно сделать.. Тогда, конечно, вы можете сделать все, что вам нравится лучше, все, что вы хотите. Я совершенно уверен, что есть много примеров решений для веб-пауков, доступных там. С моим ограниченным набором инструментов, я бы, вероятно, попытался взломать что-то с wget, управляемым с помощью скрипта bash или perl, но это я и не всегда благоприятен для многих людей.
Что касается самой «задачи», если вы действительно хотите ее подстроить, рассмотрите разделение в подзадачах, Некоторые из них увидели бы 2 приложения, выполняющие эту задачу. Например, у вас может быть одно приложение, которое может хранить ссылки, а другое - «фехтовальщик», паук.
И старайтесь не думать о терминах «петли». На этом этапе вашего проекта нет цикла.
Если вы находитесь в Linux или у вас установлен Cygwin/GnuTools для окон, как я и намекал, я сильно подозреваю, что wget может быть написана сценарием для этого, просмотрите список текстовых ссылок и выберите css, изображения и, возможно, даже js.
Конечно, как только все это прекрасно работает из командной строки, вам, возможно, понадобится доступ к этому интерфейсу дружелюбно. Опять же, в зависимости от используемого языка/технологии, у вас будут разные варианты. Это еще одна тема, в которую я не попаду.
Надеюсь, это поможет, ура!
В двух словах, вы можете выполнить поиск существующих Open-Source веб Spidering RESSOURCES на Sourceforge, ГИТ-хаб, Google и т.д.
В зависимости от ваших потребностей, Netwoof может сделать это для вас. Может зацикливаться на ссылках, на нескольких страницах resutls и т. Д. Он полностью автоматизирован, генерирует API и может даже квалифицировать незамасленные данные в структурированных данных.
- 1. 3 вебсайта 1 Проект
- 2. 1 домен 2 вебсайта
- 3. Сканирование нескольких диапазонов Hbase?
- 4. ZXing-сканирование нескольких штрих-кодов
- 5. Сканирование нескольких документов с использованием WIA
- 6. сканирование нескольких штрих-кодов с zxing.net
- 7. Гибкое сканирование нескольких таблиц с краткими результатами
- 8. сканирование нескольких веб-страниц с веб-сайта
- 9. Сканирование Twitter с использованием нескольких ключевых слов
- 10. Сканирование нескольких уровней в Scrapy
- 11. Scrapy Сканирование нескольких пауков впоследствии
- 12. IOS Swift Сканирование нескольких штрихкоды
- 13. Как предотвратить сканирование нескольких раз?
- 14. Сканирование файловой системы нескольких файлов Docker
- 15. Сканирование нескольких страниц с помощью сканера ADF с использованием VBA
- 16. Scrapy - Сканирование нескольких страниц на элемент
- 17. Altbeacon - Сканирование нескольких UUID в массиве
- 18. Как использовать ASP.NET маршрутизации в цитате Вебсайта день
- 19. структура папок Codeigniter для отзывчивым вебсайта, используя HMVC расширение
- 20. Сканирование портов: как ускорить сканирование?
- 21. Сетевое сканирование с C#
- 22. Сканирование с проверкой подлинности
- 23. Сканирование с использованием nTwain
- 24. Сканирование double с nextDouble
- 25. Сканирование строк с клавиатуры?
- 26. Сканирование с помощью Nmap
- 27. Сканирование страницы с питоном
- 28. Сканирование поддомены с Anemone
- 29. Сканирование с помощью import.io
- 30. Сканирование WoS с Python