2012-04-15 2 views
0

Я хочу извлечь данные с веб-сайта. Скажем, URL-адрес: http://www.example.com/. Поэтому я помещаю этот URL-адрес в start_urls (ссылаясь на пример DMOZ в документации). Но я также хочу создать графический интерфейс, когда я ввешу строку и нажму кнопку, она добавит эту строку в start_urls и извлечет все страницы, к которым можно получить доступ, например, http://www.example.com/computer/page-1. Так что, пожалуйста, скажите мне, как я могу это сделать с помощью цикла? Я попытался поместить больше URL-адресов в start_urls вручную, чтобы проверить, работает ли он, но он не отвечает хорошо. Иногда он не получает ответа. Любые мысли по этому поводу?сканирование нескольких веб-страниц с веб-сайта

ответ

0

Как вы можете это сделать, используя петлю?

Друг, это будет какая-то петля. Серьезно, я бы рассмотрел поиск существующих скриптов и приложений Open-Source, которые это делают. Вы легко могли бы увидеть и иметь представление, как это можно сделать.. Тогда, конечно, вы можете сделать все, что вам нравится лучше, все, что вы хотите. Я совершенно уверен, что есть много примеров решений для веб-пауков, доступных там. С моим ограниченным набором инструментов, я бы, вероятно, попытался взломать что-то с wget, управляемым с помощью скрипта bash или perl, но это я и не всегда благоприятен для многих людей.

Что касается самой «задачи», если вы действительно хотите ее подстроить, рассмотрите разделение в подзадачах, Некоторые из них увидели бы 2 приложения, выполняющие эту задачу. Например, у вас может быть одно приложение, которое может хранить ссылки, а другое - «фехтовальщик», паук.

И старайтесь не думать о терминах «петли». На этом этапе вашего проекта нет цикла.

Если вы находитесь в Linux или у вас установлен Cygwin/GnuTools для окон, как я и намекал, я сильно подозреваю, что wget может быть написана сценарием для этого, просмотрите список текстовых ссылок и выберите css, изображения и, возможно, даже js.

Конечно, как только все это прекрасно работает из командной строки, вам, возможно, понадобится доступ к этому интерфейсу дружелюбно. Опять же, в зависимости от используемого языка/технологии, у вас будут разные варианты. Это еще одна тема, в которую я не попаду.

Надеюсь, это поможет, ура!

В двух словах, вы можете выполнить поиск существующих Open-Source веб Spidering RESSOURCES на Sourceforge, ГИТ-хаб, Google и т.д.

0

В зависимости от ваших потребностей, Netwoof может сделать это для вас. Может зацикливаться на ссылках, на нескольких страницах resutls и т. Д. Он полностью автоматизирован, генерирует API и может даже квалифицировать незамасленные данные в структурированных данных.

Смежные вопросы