2012-01-09 5 views
1

Для моей первой программы переползания, я планирую сделать следующее:Сканирование веб-сайта с помощью Python

  1. Откройте следующий URL с помощью селена: http://www.google.com/
  2. собрать все Релевент связывает
  3. На открывшейся странице , перечислите все http-ссылки, которые присутствуют, и сохраните их в csv.
  4. Вернитесь к шагу 2, но нажмите на следующий один

Может кто-нибудь дать мне некоторую помощь, чтобы начать? (Я нахожусь на python 2.6.6, если это помогает)

+1

Использование селена для этого сайта является излишним. Сайт не имеет динамического (ajax) контента. Если это ваша первая задача, попробуйте [mechanize] (http://wwwsearch.sourceforge.net/mechanize/). В документации есть образцы – reclosedev

ответ

4

Посмотрите на библиотеку BeautifulSoup, найти ссылки на странице очень просто, и есть примеры на StackOverflow уже.

+0

, спасибо каждому. Ваше предложение действительно помогло мне. – user1063643

+0

Я использовал эту библиотеку BeautifulSoup и просканировал ссылку ниже. – user1063643

+0

Посмотрите на библиотеку Python (для регулярных выражений), вы можете использовать ее для сопоставления URL-адресов, соответствующих вашим критериям. – Peter

1

IMO, lxml намного проще в использовании и имеет API-интерфейс pythonic. Посмотрите here для примера с подробным объяснением.

0

Вы считаете, что обращаетесь к людям на Cars.com, если ваша цель - просто получить данные? Они могут предоставить вам доступ к каналу или API, предполагая, что ваша конечная цель - получить данные, а не просто разрабатывать программу сканирования.

Смежные вопросы